⚖️
Tips #DevOps #SRE #プロジェクト管理 📚 SREワークブック

エラーバジェットで優先度を決める

エラーバジェットの残量に応じて、開発速度と信頼性改善のどちらを優先するかを自動的に決定する

ルール

エラーバジェットの消費状況に応じて、以下を組織として事前に合意し、厳格に適用する:

  • バジェット残あり → 新機能開発・実験を積極的に進める
  • バジェット75%消費 → リリース前の影響分析を強化する
  • バジェット枯渇(100%消費) → 新機能リリースを凍結し、信頼性改善を最優先にする

この判断を感情・政治・個人の意見で覆さない。

理由

「信頼性か速度か」の議論は、ステークホルダーが変わるたびに繰り返される。この議論に毎回リソースを使うのは非効率で、しばしば感情的になる。

エラーバジェットポリシーを事前合意することで:

  • PM・開発・SREが同じ基準で議論できる
  • 「なぜ今信頼性改善をするのか」を数値で説明できる
  • SREが「邪魔者」にならず、開発のパートナーになれる

例外

  • セキュリティパッチ(緊急度が高いものはバジェット関係なくリリース)
  • ビジネス上やむを得ない事情(法的要件など)——ただし例外は文書化する

出典

Google SRE Workbook(Betsy Beyer他)第2章「Implementing SLOs」