SRE NEXT 2025 に参加してきた
カンファレンスはやっぱり楽しいもんだね
はじめに
SRE NEXT 2025 に1日目はオンライン、2日は現地で参加してきた。
資料一覧はここっぽい
https://zenn.dev/r4ynode/articles/srenext2025-documents
2日目は朝早くて現地参加の結果、終わりごろには体力尽きてかなり眠かった。やはり現地参加は午後から参加が良いかもしれない。
聞いていて気になった登壇に聞いていて思ったことをつらつら
speakerdeck埋め込んだら死ぬほど見づらい。いい加減ブログのデザインどうにかしよう。
SRE不在の開発チームが障害対応と向き合った100日間
SRE"チーム"はつまるところ、"信頼性を組織として課題に持っているが、それを実現するための人的リソースや予算の確保・文化形成ができていないから、組織として枠組みを立てて内外的にアピールする"という面があると思っている(しらんけど
ということはそもそも組織全体としてそういう課題を共有できて、社内政治含めアピールしなくても取り組む際に一定のリソースを割くことに抵抗感が少ない場合はチームなんぞをつくらなくても良いよなーと。
ということを話を聞きながら思ったり思わなかったり。
で、本題の障害対応についてだが、CSからフィードバックもらって認知のズレがあることに気づき、越境してコミュニケーションしまくって改善したという話が主だった。
これは本当に大事だなと。まずフィードバックをくれたCSサイドも優秀だし、それを真摯に受け取って自分たちの認知を正すために対話を重ねる判断ができるも優秀。大抵の人はそこで自分たちは間違ってないという言い合いからの対立をしがちなので。
そこらへんはベンチャー企業全体的にそういう風土が強い気がしている。
個人的に一番強く、このカンファレンスにおいて印象に残っているのが「教科書的な話は教科書で良い。各社の事例を共有することに意義がある」的なことをスピーカーの人が言っていて、カンファレンスを開いて話を聞く大きな意義はこれだよなぁとしみじみと感じた。
SREチームの越境と対話〜どのようにしてイオンスマートテクノロジーは横軸運用チームの廃止に至ったか〜
「イキリSREが突如現れてもうまくいかない」という話は相当頷きながら聞いていた。
僕自身前職でSREとして立ち回るために、まずは1つのプロダクトチームで成功体験を得て、そこでの信用貯金をつかって横断チームを作るみたいな立ち回りをしていた。
以前の僕の発表資料にも似たようなことを書いていた気がする。
そのためいきなり外部の人間を雇ってチームを作るより組織内の人間を引っこ抜いてSREチームを作って、それから技術的に足りない部分を外部の人間で埋めるという方が結果的にいいよな~と
とくにSREチームの最初のミッションは現状を越境して対話して整理することだと思うので、社内の立ち回りを知っている人間のほうが重要度が高いと思う。
ほんとに越境が仕事みたいなところある。
OpenTelemetryセマンティック規約の恩恵とMackerel APMにおける活用例
弊社でも分散トレーシング導入やろうねって実装中してるのではやくやりて~~~~~って気持ちが高まった。
以上
モニタリング統一への道のり - 分散モニタリングツール統合のためのオブザーバビリティプロジェク
この表がうーん?となった
何をどういう基準でこの表にしているのか不明だが、少なくともGrafana+Prometheusの評価低すぎないか?と思った。
Azue monitorは触ったことがないので除くとして、僕の情報がアップデートされてない可能性があるが
- datadogのログの料金はえぐい
- これはNew Relic UGの人も言っていたが、監視Saas系はどこもログの料金クソ高いので基幹部分だけにしたほうがいいと言っていた
- datadogのmonitorはterraformで管理しようとすると対応してない部分がいくつかって結局手動じゃないと表現できない部分がある
- New Relic UGの人いわく、確かに数年まえはそうだった。最近はかなり対応しているとのこと(両プロダクト
- Amazon Cloudwatchは全部だめ
- logsに関しては検索性悪いし、高いし、設定はめんどくさい
- メトリクスのほうがまだいいかもしれないが、それでも単純な設定しかできないし、複雑なことやろうとするとCW以外のもの使わないといけない
- 何よりAWSにログインしないと見れないは最悪すぎる
その点Grafana+Prometheusはセルフホスティングの運用コストという点を除けばかなり優秀な記憶。
登壇でも特に触れられてないのでかなり疑問。オンライン参加だったのでask the speakerで聞けないのが残念。二日目ニフティーのブースに行けばよかった、他のやらねばいけない用事と眠気で忘れてしまった。
〜『世界中の家族のこころのインフラ』を目指して”次の10年”へ〜 SREが導いたグローバルサービスの信頼性向上戦略とその舞台裏
っぱAuroraよ!!!!!!!!
登壇した方とは二日目にブースで少しお話させていただいた。
やはりRDS proxyを外すのはなかなかにしんどそうだったが結果的にはパフォーマンスチューニングできたのでヨシッ
日本・米国・EUという順でユーザーが多く、米国・EUの物理的距離が近いus-east-1を選定した話は面白かった。確かに米国・EUをカバーするならある程度許容されそうではある。
ap-northeast-1以外のリージョンはまともに触ったことがないんだが、グローバル展開するときは物理的制約を考慮しなくてはいけないんだと勉強になった。
キャッシュ戦略はいつでも我々を待っている(とてもつらい)
ABEMAの本番環境負荷試験への挑戦
k8s構成のnode/podの負荷試験が主だった内容
ABEMAレベルだと検証環境を構築するのは金銭的・技術的コストがかかるので本番環境でやるほうが良いと。
その意思決定できるのがすごいなと思った。経営陣も負荷に対して同じ課題感を持っているので話が進みやすかったのかもしれないが、経営レイヤーでその意思決定ができるのがサイバーエージェントの強みなんだろうなと。
話を聞いててなるほどとは思ったが、結局DBに関しては分離せずにやったっぽくて、どちらかというとDB側の話を聞きたかったのですこし残念。ボトルネックになりがちなのはDBなので。
マルチプロダクト環境におけるSREの役割 〜SmartHRの組織立ち上げから学ぶ実践知〜
毎度思うし、自分もそうだったんだが、SREチーム立ち上げ時に一人チームになりがち。
とはいえ大体は成功しているのでSREチーム立ち上げ時に一人というのはある種の成功パターンなんでは?と思ってきている今日このごろ。
あと、インフラ屋さんになりがちなので気をつけるのは本当にそう思う。
というかなんでSREはインフラレイヤが強く求められがちなんだろうか?と考えたけど、インフラレイヤーが最も横断しているレイヤーだからなんだろうか?逆をいうとフロントエンドはドメインで適切に分割されている。
あとはよくあるチーム立ち上げの話。これからSREチーム立ち上げようみたいな人には良いかもです。
お弁当美味しかったです。
顧客の画像データをテラバイト単位で配信する画像サーバを WebP にした際に起こった課題とその対応策 ~継続的な取り組みを添えて~
開発チームのマインドがすごく素敵なお話だった。
webpとかキャッシュ戦略とかのお話も良かったが、「ユーザーのテンプレートは、ユーザーが頑張って作った資産であってユーザーのもの。それを自動で手を加えてはいけない」というお話が最高だった。
普通に考えればアップロードされたテンプレートを自動で書き換えるのが早いが、"ユーザーの資産"という考え方は特に我々エンジニアは忘れがちなので心に刻んでいきたい。
見積もりから全然違う値が出たというのはあるあるなんだが、そこから何故違ったかみたいなところを深追いして結果漏れがあったので適用したら許容範囲内になったのはとても良かった。
というか10%削減だけでも十分な気はする。
オンコール入門〜ページャーが鳴る前に、あなたが備えられること〜
「悩んだらエスカレーション」額縁に入れて家訓にしたい。
わからなかったり不明な部分を図やチートシートとしてドキュメントに残すのはとても良いよな~と思った。あとからjoinする人の助けにもなるし、なによりAIが台頭しているこの時代にドキュメンテーションは正義なので投資する価値がある。(データやログの流れとかをドキュメントにしてくれるAIが欲しいわけだが)
システム障害対応のツマミになる話
「システム障害対応の教科書」の著者である木村誠明さんの登壇。
とても良かったが資料は公開されていない。
恥ずかしながらまだ著書を読んでいないのでとりあえず購入はした。
「システム障害に対して体系的にまとまっていない。若い人が知見が得られない。やって覚えるしか無い」というのはあまりにも深くささった。
昔から後輩から「どうやってインシデント対応に対して強く慣れますか」みたいな質問にたいしてとても課題を感じていた。
まだ書籍は読んでいないがそういった面のアプローチとして良い著書なんだろうなというが登壇を聞いていて感じた。
その他
大体どのカンファレンスのNOCにもいつものメンツがいるだろうなと思って覗いたらやっぱいた。
話をしていて久々にNOCがしたくなったので年末か来年あたりにNOC活動を再開しようかな~と思ったり思わなかったり。
今回のメインの目的であるk8s × GPUインスタンスという構成の知見を得るためスポンサーブースや廊下とかで色んな人に聞いて回ったが、どうやらかなり特殊らしくこの構成でやっている組織は見当たらなかった。残念。
懇親会でたまたま同じテーブルになった人にVRの素晴らしさを早口オタクで語ったら、そうちの一人がSRE kaigiで実行委員長をやったりSRE Magazine編集長やっているしょっさん(さん) @syossan27 で、SRE kaigi行くか~という気持ちになった。