
新卒エンジニアによるSRE NEXT 2025 イベントレポート
Posted on
はじめに
こんにちは、今年4月に新卒でプレイドに入社しエンジニアをしている佐藤と申します!普段は、社内で利用する内製のOLAPデータベースを開発するチームでお仕事をしています。
この度、プレイドは「SRE NEXT 2025」にゴールドスポンサーとして協賛いたしました。当日はブース出展に加え、エンジニアの土谷が「大量配信システムにおけるSLOの実践 :「見えない」信頼性をSLOで可視化」というテーマでスポンサーセッションに登壇しました。
私自身もイベントに参加し、ブースの運営と多くのセッションを聴講しました。本記事では、当日のプレイドブースの様子や、個人的に特に印象に残ったセッションについてレポートします!
ブースの紹介
まずは、プレイドブースの様子からご紹介します。ブースでは、来場者の皆様と多岐にわたる技術的な議論ができるよう、以下の5つのトピックを用意しました。
- Production Readiness Reviewとは
- リアルタイムユーザー解析エンジンのリアーキテクチャ
- 監査ログとは - なぜ重要なのか
- KARTE BlocksのSLO
- AIエージェントを用いたセキュリティレビュー
ブースでは、来場者の方に興味のあるトピックへシールを貼っていただく企画を実施し、特にAI関連のテーマに多くの関心が集まっているようでした。
私はリアルタイムユーザー解析エンジンについて会話することが多かったので、そちらについて紹介します。プレイドでは、「KARTE」を通じて取得した膨大なデータを処理するために内製のリアルタイムの解析エンジン(「Blitz」と呼んでいます)を置いています。(このエンジンはデータ工学系のフォーラムであるDEIMに論文を投稿していたりします)。主にその内部の仕組みとリアーキテクチャについて議論させてもらいました。例えば、リアーキテクチャによってレイテンシが1500ms(結果整合性)からp95で200ms(強整合性)へと改善したことをお話しすると、プレイドの技術への投資姿勢とエンジニアの技術力について良い反応をもらうことができて嬉しかったです。
Blitzの詳細に関しては、論文以外にも以下のブログで紹介していますので、よろしければご覧ください。
- Blitz(前編): 自由度と即時更新性を担保したAggregation
- Blitz(後編):リアルタイムユーザー解析エンジンを実現する技術 - 強整合な解析 -
- Blitz: リアルタイムユーザー解析エンジンのボトルネックを解消したキャッシュ設計
また、現在私が開発に携わっているユーザー行動分析に特化した内製のOLAPデータベースについても、Kubernetesやコンテナランタイムといった技術を交えながらお話しでき、そちらに対する議論も大変盛り上がりました。
これらの技術的なコンテンツに加え、様々なノベルティ(カフェオレ、ラムネ、うちわ、歯ブラシなど)やSRE NEXT 2025のために作成したパンフレットも大変好評でした!
参加セッションの感想
Fast by Friday: Making performance analysis fast and easy(Brendan Gregg)
Brendan Gregg氏はフレームグラフを始めとした多くの可視化ツールの発案者であり、USENIXなどの著名カンファレンスで基調講演をされており、私自身本セッションをとても楽しみしておりました。
このセッションでは、「Fast by Friday」——つまり、月曜日に発生したパフォーマンス問題をその週の金曜日までに解決するというコンセプトに基づき、システムパフォーマンスを迅速に分析・改善するための方法論が紹介されました。
例えば、「月曜日にはまず問題を定量的に分析する」「水曜日にはフレームグラフやeBPFを用いてプロファイリングを行う」といったように、1週間の各曜日で何をすべきかが具体的に語られました。第一線で活躍するエンジニアのパフォーマンスチューニングの過程を体系的に知ることができ今後の業務に大変活かせると感じました。
(SRE NEXT 2025での発表資料は見つけることができませんでしたが、こちらの資料に内容は近いと感じましたので、ご興味ありましたら是非ご覧ください。)
セッション後のAsk the Speakerでは、私たちが開発しているOLAPデータベースのパフォーマンスについて少し相談してきました。特に印象的だったこととして、メモリ使用量の改善についてのアドバイスです。「プロダクション環境でメモリダンプを取得するとJVMのレイテンシが悪化してしまう」という課題に対し、「CPUのフレームグラフを分析してメモリ割り当てが多いコードパスを特定すれば、より低コストで問題の原因を突き止められるかもしれない」という助言をいただきました。また、データベースのような巨大で複雑なシステムのパフォーマンスを改善するためには、まずマイクロベンチマークを整備することが重要であると勧められました。実装には工数がかかりそうですが、コードを大量に生産することにはAIの活用も期待できるため、チームで検討し、整備を進めていこうと思います。
Intel SGXをAzureで本番運用するための構成事例と実践知見(株式会社Datachain SRE/テックリード 大久保 俊彦)
TEE(Trusted Execution Environment)は、ハードウェア上の保護された領域でコードやデータを処理し、安全性を確保する技術です。例えば、メモリ上にデータを暗号化して保持し、CPU内部で復号化と処理を行うなどがあり、これにより、メモリを抜かれたとしても暗号が解読されない限りは、データを覗き見ることができなくなります。多くのCPU(ARM, AMD, etc.)がTEEをサポートしていますが、中でも強力なTEEの一つとして、Intel SGXがあります。
その仕組みの複雑さや具体的なユースケースのイメージが湧きづらい点から、私自身これまで深く学習できていませんでしたが、本講演では動作原理とユースケースに対する興味深い話を伺うことができました。(講演の後、大久保さんと2時間ほどお話しする機会をいただき、Intel SGXについてさらに深く学ぶことができ大変良い経験になりました。ありがとうございました。)
Datachain社では、異なるブロックチェーン間で資産やデータを安全に移動させるための「ブリッジ」という仕組みにIntel SGXを活用されています。このブリッジですが、暗号化が施されていない場合、内部の人間が直接メモリを盗み見ると仮想通貨の情報が見れてしまい、ユーザーの暗号資産を不正に操作できてしまうリスクがあります。(実際にブリッジの運用者の内部犯行によってユーザーの仮想通貨が$120M抜き取られたという事件が起きていたりします)。
Datachain社は、Intel SGXを用いることで運用者ですらアクセスできないセキュアな環境を構築し、ユーザーが安心して資産を移動できるサービスを提供しているとのことでした。
秘密計算という先進的な技術が、実社会の課題解決に貢献している様子を知ることができて、大変刺激を受けました。
プレイドのセッションの紹介
大量配信システムにおけるSLOの実践 :「見えない」信頼性をSLOで可視化(プレイド 土谷)
弊社エンジニアの土谷からは、「KARTE Message」をテーマに、月間10億通を超える大規模配信の信頼性をどのようにSLOに落とし込み、運用・改善してきたかについてお話ししました。
セッション後、弊社ブースにお立ち寄りいただいた方の中には、これからSLI/SLOを設定するという方も多くいらっしゃいました。技術的な側面に加え、「ビジネスメンバーへの理解をどのように促進したか」といった具体的な実践方法まで踏み込んで質問される方も多く、皆様との対話を通じて、私たち自身も多くの学びを得ることができました。
よろしければ登壇資料もご覧ください。
おわりに
SRE NEXT 2025には、SREやインフラ分野に深い知見をお持ちの方が数多く参加されており、弊社の取り組みに興味を持っていただき、活発な議論ができたことを大変嬉しく思います。私たちが知見を提供するだけでなく、皆様からも多くのことを学ばせていただき、非常に貴重な交流をすることができました!
今回、初めてカンファレンスのブース担当を経験しましたが、多様なバックグラウンドを持つ方々と直接技術的なお話しができ、とても楽しかったです。普段チームの中で開発している時には中々得られない刺激と知見を得ることができました。今後もこのような場に参加させていただきたいと思います!
最後に、このような素晴らしいカンファレンスを主催・運営してくださった皆様、本当にありがとうございました!ブース出展では、スタンプラリーなど来場者と話すきっかけを運営の皆様にご用意いただけたおかげで、非常に多くの方々とお話できました。そして、盛り上げていただいた参加者のみなさま、様々な知見をご共有いただいたスピーカー、スポンサー企業の皆様、ありがとうございました!
SRE NEXT 2026も楽しみにしております!