PLAID Engineer Blog

PLAID Engineer Blog


KARTEを提供する株式会社プレイドのエンジニアブログです。プレイドのエンジニアのユニークなパーソナリティを知ってもらうため、エンジニアメンバーたちが各々執筆しています。

PLAID Engineer Blog

【freee×プレイド】Tech Meetup 〜インフラ監視編〜を開催しました!

Daiki MatsuiDaiki Matsui

こんにちは!
プレイドで主にインフラを担当しているikemonnです。

1/19(木)にfreeeさんの会場をお借りして、「【freee×プレイド】Tech Meetup 〜インフラ監視編〜」を開催しました!

そこで、KARTEを支えるマルチプラットフォームインフラ監視について話してきましたので、本日はこの勉強会のレポートをお届けしたいと思います。

卓球台!

PLAIDの "Nice Deploy" カップ

発表タイトル

  • freee を支えるインフラ監視
  • KARTEを支えるマルチプラットフォームインフラ監視
  • 対談
  • プロセス生存確認サービス始めました
  • grafana-zabbix 活用術
  • prometheus 監視で変わるもの

freee を支えるインフラ監視


まずfreee @manabusakaiさんから「freee を支えるインフラ監視」についてお話して頂きました!

freeeさんで使っている監視系サービスや少人数(インフラエンジニアが3人!)で運用するためのノウハウについてお話して頂きました!

freeeさんでは下記の5点を工夫することで少人数で運用しておられるとのことでした。

  1. 情報はプルよりプッシュ
  2. フルマネージドサービスの活用
  3. 障害が起きることを前提にインフラを設計する
  4. 本業にフォーカスする
  5. トラッキングして見える化

上記の内容はプレイドでも当てはまることが多く、特に「本業にフォーカスする」は強く意識しています。

スタートアップでインフラ監視をする際に考えるべき重要なポイントが上手くまとまっていてとても参考になりました!

登壇ブログも書いてくださっています!
【freee × プレイド】 Tech Meetup に登壇しました

KARTEを支えるマルチプラットフォームインフラ監視

次に私、プレイド @ikemonnから「KARTEを支えるマルチプラットフォームインフラ監視」の発表を行いました。

プレイドではもともとAWSのみでインフラを構築していました。

しかし、GCPのBigTableやBigQueryを積極的に利用するにあたり、latencyやnetworkコストの面からGCPにもインスタンスを立てており、現在AWSとGCPの両プラットフォームでインフラを構築しています。

今回の発表では以下のことについて話しました。

  • 具体的にどのような値をどのように監視しているのか
  • ダッシュボードを作るときのコツ
  • マルチプラットフォームの監視でハマったこと

プレイドのインフラエンジニアは2名でして、少数でマルチプラットフォームの監視を行っていくために以下のことを工夫しています。

  • 情報/アラートを一元管理する
  • 問題をドリルダウンして追っていけるようにする

マルチプラットフォーム監視にご興味のある方は是非スライドを御覧ください!

対談

Dashboardやアラートを作ったり、整理したりするタイミングは?
  • 障害駆動でDashboardやアラートを作る
  • アラートの数は抑え気味で、監視しすぎないことを意識している
適切な負荷ってどうやって監視するの?
  • 時系列のデータから低負荷を定義しやすい。ソーシャルゲーム等だと色々イベントあるから難しい
  • 決めの問題で、余裕があるときに一気に落として見たり負荷テストしてみたりすると良い
  • 自分のカードで支払うとしたら?と考えてコスト落とす。勇気のある方は自分のカードを登録してもいいかもw
使用中のモニタリングツールの辛いところ、改善して欲しいところは?
  • Datadog
    • セキュリティ, 99 percentile位まで見たい, 異常値検出でインスタンスの起動/終了時を省けない
  • Mackerel
    • Zabbixに比べて画面が重い。画面を開き続けているとバッテリーの持ちが悪い。
    • 障害が今起きてるのに画面が遅いのは困る!簡易版で良いから画像で出すoptionとか欲しい
通知を受け取る範囲/対象はどのように設定していますか? 通知が多すぎるとオオカミ少年になるので。
  • 緊急の場合はPagerdutyで、その他は緊急度に応じてSlackのchannelを分ける
  • 緊急性の高い問題が飛んでくるチャンネルと、少し気にしておけば良い優先度の低い問題を飛ばしているchannelをわけている
  • twilioを使ってインフラエンジニアにランダムで電話をかける
新しい監視ツール・サービスを導入する際、社内をどう説得しているか
  • PLAIDはCTOが新しいサービスが好きで、hackernewsなどで見つけたものをshareしてくれる
    • free trialですぐ試して、ある程度の金額までだったらすぐに導入できる
  • freeeにいると苦労しないが、前職だと稟議を通したりしないといけなかった
    • ツールを導入することでどれくらい安くなるかを言えると話が早い
  • 社内稟議が大変な会社は
    • 何をやっているかわからない人の言うことはなかなか理解されないので、社内で勉強会をやったりして何をやっているかアピールする
    • 社内でPRすると色々実現しやすくなる

プロセス生存確認サービス始めました

@narita-takeruさんから「プロセス生存確認サービス始めました」というテーマで発表して頂きました。
「サーバにsshせずとも、バッチ処理のプロセスの死活監視を簡単に行いたい」という想いから、プロセスの死活監視ツールNurseCallを作られたそうです!

プロセスが生きている/生きていたかの監視を行いたい方はぜひ使ってみてはいかがでしょうか?

grafana-zabbix 活用術

@kakakakakkuさんから「grafana-zabbix活用術」についてお話していただきました。
alexanderzobnin/grafana-zabbix を使うことで、モダンな見た目のzabbixが使えるようになるそうです!
grafana-zabbixの良いところが、zabbixサーバには影響を与えずに試せるため、手軽にTryできるところです。
zabbixを使っておられる方も多いと思いますので、一度試してみてはいかがでしょうか!

発表の際にあげておられた、Effective Monitoring and Alerting: For Web Operations(Oreilly)をちょうど年末に読んでおり、監視に関するオススメ本なのでぜひ読んでみてください!

勉強会の参加ブログも書いていただきました!
Tech Meetup に参加して「grafana-zabbix 活用術」を紹介してきた - kakakakakku blog

prometheus 監視で変わるもの

@sugitakさんから「prometheus 監視で変わるもの」についてお話していただきました。
最近話題になっているPrometheusを実際に使用されていて、Prometheusの思想や具体的にどのように使っているのかについてお聞きできました!
「大量のホストのCPU使用率を1つのグラフに表示する」のではなく「CPU使用率の最小値と最大値だけを表示する」と言ったように、「本当に必要な情報だけを表示する」思想は良いなと思いました!

Qiitaの方にも記事を書かれていますので、ご興味のある方は是非!
次世代監視の大本命! Prometheus を実運用してみた

最後に

ウェブ接客プラットフォーム「KARTE」を運営するプレイドでは、KARTEを支えるマルチプラットフォームインフラに興味がある!KARTEを使ってこんなアプリケーションが作りたい! KARTE自体の開発に興味がある!というエンジニア(インターンも!)を募集しています。
詳しくは弊社採用ページ
またはWantedly
をご覧ください。

Daiki Matsui
Author

Daiki Matsui

Comments