PLAID Engineer Blog

PLAID Engineer Blog


PLAID Engineer Blog

【freee×プレイド】Tech Meetup 〜インフラ監視編〜を開催しました!

Daiki MatsuiDaiki Matsui

こんにちは! プレイドで主にインフラを担当しているikemonnです。

1/19(木)にfreeeさんの会場をお借りして、「【freee×プレイド】Tech Meetup 〜インフラ監視編〜」を開催しました!

そこで、KARTEを支えるマルチプラットフォームインフラ監視について話してきましたので、本日はこの勉強会のレポートをお届けしたいと思います。

卓球台!

PLAIDの "Nice Deploy" カップ

発表タイトル

freee を支えるインフラ監視

まずfreee @manabusakaiさんから「freee を支えるインフラ監視」についてお話して頂きました!

freeeさんで使っている監視系サービスや少人数(インフラエンジニアが3人!)で運用するためのノウハウについてお話して頂きました!

freeeさんでは下記の5点を工夫することで少人数で運用しておられるとのことでした。

  1. 情報はプルよりプッシュ
  2. フルマネージドサービスの活用
  3. 障害が起きることを前提にインフラを設計する
  4. 本業にフォーカスする
  5. トラッキングして見える化

上記の内容はプレイドでも当てはまることが多く、特に「本業にフォーカスする」は強く意識しています。

スタートアップでインフラ監視をする際に考えるべき重要なポイントが上手くまとまっていてとても参考になりました!

登壇ブログも書いてくださっています! 【freee × プレイド】 Tech Meetup に登壇しました

KARTEを支えるマルチプラットフォームインフラ監視

次に私、プレイド @ikemonnから「KARTEを支えるマルチプラットフォームインフラ監視」の発表を行いました。

プレイドではもともとAWSのみでインフラを構築していました。

しかし、GCPのBigTableやBigQueryを積極的に利用するにあたり、latencyやnetworkコストの面からGCPにもインスタンスを立てており、現在AWSとGCPの両プラットフォームでインフラを構築しています。

今回の発表では以下のことについて話しました。

プレイドのインフラエンジニアは2名でして、少数でマルチプラットフォームの監視を行っていくために以下のことを工夫しています。

マルチプラットフォーム監視にご興味のある方は是非スライドを御覧ください!

対談

Dashboardやアラートを作ったり、整理したりするタイミングは?
適切な負荷ってどうやって監視するの?
使用中のモニタリングツールの辛いところ、改善して欲しいところは?
通知を受け取る範囲/対象はどのように設定していますか? 通知が多すぎるとオオカミ少年になるので。
新しい監視ツール・サービスを導入する際、社内をどう説得しているか

プロセス生存確認サービス始めました

@narita-takeruさんから「プロセス生存確認サービス始めました」というテーマで発表して頂きました。 「サーバにsshせずとも、バッチ処理のプロセスの死活監視を簡単に行いたい」という想いから、プロセスの死活監視ツールNurseCallを作られたそうです!

プロセスが生きている/生きていたかの監視を行いたい方はぜひ使ってみてはいかがでしょうか?

grafana-zabbix 活用術

@kakakakakkuさんから「grafana-zabbix活用術」についてお話していただきました。 alexanderzobnin/grafana-zabbix を使うことで、モダンな見た目のzabbixが使えるようになるそうです! grafana-zabbixの良いところが、zabbixサーバには影響を与えずに試せるため、手軽にTryできるところです。
zabbixを使っておられる方も多いと思いますので、一度試してみてはいかがでしょうか!

発表の際にあげておられた、Effective Monitoring and Alerting: For Web Operations(Oreilly)をちょうど年末に読んでおり、監視に関するオススメ本なのでぜひ読んでみてください!

勉強会の参加ブログも書いていただきました! Tech Meetup に参加して「grafana-zabbix 活用術」を紹介してきた - kakakakakku blog

prometheus 監視で変わるもの

@sugitakさんから「prometheus 監視で変わるもの」についてお話していただきました。 最近話題になっているPrometheusを実際に使用されていて、Prometheusの思想や具体的にどのように使っているのかについてお聞きできました! 「大量のホストのCPU使用率を1つのグラフに表示する」のではなく「CPU使用率の最小値と最大値だけを表示する」と言ったように、「本当に必要な情報だけを表示する」思想は良いなと思いました!

Qiitaの方にも記事を書かれていますので、ご興味のある方は是非!
次世代監視の大本命! Prometheus を実運用してみた

最後に

ウェブ接客プラットフォーム「KARTE」を運営するプレイドでは、KARTEを支えるマルチプラットフォームインフラに興味がある!KARTEを使ってこんなアプリケーションが作りたい! KARTE自体の開発に興味がある!というエンジニア(インターンも!)を募集しています。 詳しくは弊社採用ページ またはWantedly をご覧ください。

Daiki Matsui
Author

Daiki Matsui

Comments