8件のドキュメント
メタデータ中心ロギング(Metadata-Centric Logging)
ログに記録するのはメタデータ(誰が・いつ・どこで・どのくらい・結果は何か)に限定し、コンテンツ(ユーザー入力・LLMの出力・ファイルの中身)を含めないアプローチ。
ログにはメタデータを記録し、コンテンツを含めない
ログに記録するのは以下のメタデータのみとする:
オブザーバビリティ(Observability)
システムの外部出力からその内部状態を推測できる度合い。分散システムやAIエージェントの運用に不可欠な能力
SLO / SLI / SLA
サービスの信頼性目標を数値化し、開発速度と信頼性のトレードオフを明示的に管理するフレームワーク
エラーバジェットで優先度を決める
エラーバジェットの残量に応じて、開発速度と信頼性改善のどちらを優先するかを自動的に決定する
オンコール設計
エンジニアが持続可能な形でオンコール当番を担えるようにするための設計原則。過負荷を防ぎ、心理的安全性を確保する
エラーバジェット
SLOから導出される「失敗してよい余裕」を数値化し、開発速度と信頼性の意思決定に使うフレームワーク
オンコール当番中も戦略的作業時間を確保する
オンコール当番の期間中を反応的対応だけで埋めない。プロジェクト作業時間を確保することで持続可能なオンコール体制を実現する