SRE Workbookから学んだこと：SLO・エラーバジェット・オンコール設計

Google SRE Workbook を読んで、特に実務に直結すると感じた概念とルールをまとめた。

SLI / SLO / SLA

SLOはSLAより厳しく設定するのが原則。SLAを下回る前にチームが行動できる余裕を持たせる。

「信頼性が十分か否か」を主観的に議論するのではなく、数値で合意することで、PM・開発・SREの3者が同じ基準で話せるようになる。そして100%の可用性を目標にしてはならない。それは開発を完全に止めることを意味する。

エラーバジェット = 1 - SLO

SLOが99.9%（月間）であれば、エラーバジェットは0.1%。30日 × 24時間 × 60分 × 0.1% ≈ 43.2分が許容できる停止時間になる。

この「バジェット」をどのように使うかは開発チームが決める。新機能リリース、インフラ変更、実験はすべてバジェットを消費する。

SREと開発が対立するのではなく、同じバジェットを共有するパートナーになれるのが最大の価値。

「信頼性か速度か」の議論は、ステークホルダーが変わるたびに繰り返される。この議論に毎回リソースを使うのは非効率だ。

エラーバジェットポリシーを事前合意することで解決する：

この判断を感情・政治・個人の意見で覆さないことが肝心。

例外はある——セキュリティパッチや法的要件はバジェット関係なく対応する。ただし例外は文書化する。

設計なしのオンコールは、夜中の頻繁なページング・特定エンジニアへの集中・燃え尽きへとつながる。オンコールは「当番」ではなくシステムとして設計する必要がある。

シフト交代時には「現在進行中の問題・未解決アラート・直近の変更」を引き継ぐ。ランブック（操作手順書）をインシデントチケットにリンクしておく。

対応が遅かった・判断が間違っていたを責めない。ポストモーテムで学習に変える。

オンコールが「反応的対応だけ」になると：

オンコール当番のシフト中であっても、少なくとも50%の時間をプロジェクト作業（自動化・改善・ドキュメント整備）に充てる。

実践として：

SEV1の大規模インシデントが発生した週は50%を超えることは許容する。ただし翌シフト以降に必ず改善タスクを組み込む。