Datadog Summit Tokyoに登壇しました!

こんにちは。エンジニアの@ikemonnです。02019/11/13にDatadog Summit Tokyoで「マルチクラウドな大規模サービスKARTEを支えるDatadog」というテーマで登壇してきました。

(イベント終了後にブログを書いた気でいましたが、書いていなかったのでその振り返りです。)

KARTEは下記のような特徴のサービスです。

  • マルチテナント
  • 低レイテンシ―/高負荷
  • 大規模システム
  • マルチクラウド構成

こういった特徴のKARTEをどのように運用コストを抑えて監視しているかについて話しました。1Datadogを例として話していますが、他の監視ツールを使っていても活かせる内容だと考えていますので、ぜひご覧ください!

概要

KARTEは下記の特性を持った低レイテンシ―/高負荷なサービスです。

  • 秒間トラッキングイベント数 105,000 event(2020年3月時点)
  • ユーザの解析から最適なアクションを返すまで0.x秒以内

インフラはGCP/AWSで構成されており、SREチーム2-3名で運用しています。2(マルチクラウド化への変遷についてはこちら )

上記のサービスの特徴とインフラの特徴を踏まえて、KARTEでは監視ツールとしてDatadogを愛用しています。

そして、下記のポイントを抑えて監視をすることで少人数での運用を実現しています。

Datadogにすべて集約

3Custom Metricsの積極活用

4Layerを分けたDashboard

このようにKARTE、マルチクラウドインフラ、Datadogの相性を考えながら最適な運用方法を日々模索しています。

より具体的な内容について知りたい方はぜひスライドや動画をご覧ください!

最後に

マルチクラウド構成、高負荷低レイテンシーなKARTEのインフラを一緒に支えていく仲間は常に募集しています!興味のある方は弊社採用ページ または Wantedly からお気軽にご連絡ください!