⚖️
エラーバジェットで優先度を決める
エラーバジェットの残量に応じて、開発速度と信頼性改善のどちらを優先するかを自動的に決定する
ルール
エラーバジェットの消費状況に応じて、以下を組織として事前に合意し、厳格に適用する:
- バジェット残あり → 新機能開発・実験を積極的に進める
- バジェット75%消費 → リリース前の影響分析を強化する
- バジェット枯渇(100%消費) → 新機能リリースを凍結し、信頼性改善を最優先にする
この判断を感情・政治・個人の意見で覆さない。
理由
「信頼性か速度か」の議論は、ステークホルダーが変わるたびに繰り返される。この議論に毎回リソースを使うのは非効率で、しばしば感情的になる。
エラーバジェットポリシーを事前合意することで:
- PM・開発・SREが同じ基準で議論できる
- 「なぜ今信頼性改善をするのか」を数値で説明できる
- SREが「邪魔者」にならず、開発のパートナーになれる
例外
- セキュリティパッチ(緊急度が高いものはバジェット関係なくリリース)
- ビジネス上やむを得ない事情(法的要件など)——ただし例外は文書化する
出典
Google SRE Workbook(Betsy Beyer他)第2章「Implementing SLOs」
- 1. 🔌メタデータ中心ロギング(Metadata-Centric Logging)
- 2. 📐ログにはメタデータを記録し、コンテンツを含めない
- 3. 🔭オブザーバビリティ(Observability)
- 4. 🎯SLO / SLI / SLA
- 5. ⚖️エラーバジェットで優先度を決める
- 6. 📟オンコール設計
- 7. 💰エラーバジェット
- 8. ⏱️オンコール当番中も戦略的作業時間を確保する