Money Forward Developers Blog

株式会社マネーフォワード公式開発者向けブログです。技術や開発手法、イベント登壇などを発信します。サービスに関するご質問は、各サービス窓口までご連絡ください。

20230215130734

エラーバジェットポリシーの導入や運用について「SRE NEXT 2023 IN TOKYO」で話します

はじめに

お久しぶりです。SREチームに所属しております、佐々木です。

本記事は、2023年9月29日に開催される「SRE NEXT 2023 IN TOKYO」の登壇内容の紹介です。

SRE NEXTの第1回、第2回と聴講者として参加させていただいておりました。 今度は登壇者として発表させていただけることが決まり、非常に嬉しく思っております。

私は「エラーバジェット運用までの取り組み – 信頼性の低下に対するアクションを定義しよう」というタイトルで、9/29(金)16:20 – 16:40の時間帯にTrack Bで発表いたします。 興味があれば、ぜひぜひご参加くださいませ。

なお、本イベントの詳細につきましては、下記をご参照ください。

sre-next.dev

発表内容

SRE NEXT 2023の公式サイトに記載の通りでございます。 以下、公式サイトからの引用です。

SLOの低下(エラーバジェットの消費)が次のアクションに結びついていない。そんな状況に心当たりはありませんか?
なぜ、エラーバジェットの運用が後回しにされがちなのか、ご存知でしょうか?

SLOにより信頼性を定量化出来ます。しかしこれだけだと、次の行動には移せません。
行動に移すには、エラーバジェットを使い果たした際に行うべきことを、エラーバジェットポリシーとして定めるのが1つの手です。
このポリシーを定めて運用するには、関係者との合意形成が必要ですが、ハードルの高さから後回しにされがちです。

ではハードルを乗り越えてでもエラーバジェットの運用が必要なのはなぜなのでしょうか。
運用のために具体的に何をすればいいのでしょうか。

本セッションでは、エラーバジェットポリシーを定め、エラーバジェットを運用をするまでに実施した内容を紹介します。
また、運用で得た学び、反省点をお話します。

キーワード
・SLOに納得感を持ってもらおう
・エラーバジェットに対するネガティブイメージを払拭しよう
・一人ではポリシーは定まらない。関係者を巻き込もう
・ロードマップの決定/変更権限を持つ人の理解を得よう

想定する聴講者

以下のような境遇の方々を想定しております。

  • SLOまでは定めているのだけれども、まだまだ活用出来ていない方
  • 開発と運用、どちらも大事だけれども… 双方のバランスの取り方に悩んでいる方

本発表では、開発と運用の双方のバランスを上手く取るためにエラーバジェットポリシーを定めて、エラーバジェットの運用をする話を紹介いたします。

持ち帰ってもらえること

本発表を聞いた人が「エラーバジェットの運用を始めてみよう!」と思い、始めの一歩を踏み出せるようになることを目指しています。

具体的には以下をお伝えし、皆様へ持ち帰っていただけると思います。

  • エラーバジェットに基づくポリシーを定め、運用する意義が分かる
  • エラーバジェットポリシーを策定し、運用するために具体的に何をすべきかが分かる

発表の見どころ

私は、2022年8月にSREチームに参画し、SREの文化をプロダクトチームにインストールする役割を担っております。

そのSREチームとは、昨年のSRE NEXT 2022で発表していた、かつては一人SREだったチームです。 そう、この発表は去年の発表(一人から始めるプロダクトSRE)の続編です。

私がSREチームへ参画した際には、一人SRE時代と比較してプロダクトチームも成長しており、既に導入されていたSLI/SLOの考え方が、プロダクトチームにも浸透している状況でした。具体的には、プロダクトチームのメンバーが計測されているSLOをウォッチし、SLOが守れない(エラーバジェットの消費) = ユーザの満足度の低下 と置き換えて考えられる状況になっておりました。

しかしながら、SLOを守れずにエラーバジェットを使い果たしてしまった際に、どのようなアクションを取るべきなのかが定まっておりませんでした。 障害が発生した際に、どのように開発と運用のバランスを取るのか、優先度付けを行うのかは、都度都度の状況や雰囲気に左右されていました。

この課題感が顕在化する出来事が発生したことをきっかけに、エラーバジェットポリシーを定めて、エラーバジェットの運用を行うことを決めました。 とはいえ、運用するまでにはさまざまな壁を乗り越えなければなりません。また、運用後にも色々な課題が発生します。

この発表では、エラーバジェットを運用するためのTipsや気をつけるべきこと、実際に運用してみての反省や学びをお伝えいたします。 きっと、同じような境遇の方の助けやヒントになると思います。

おわりに

待ちに待ったSRE NEXT 2023の開催まで、いよいよ後少しとなりました!

憧れのカンファレンスでの登壇ということもあり、正直緊張しております。

それでも、折角の貴重な発表のお時間を頂けたので、目一杯発表させていただきます。 私のSRE活動の取り組みをお伝えさせていただくことで、聴講者の方々へ何かしらの気付きやきっかけを与えられれば幸いです。

当日、皆様とお会い出来ることを楽しみにしております!