Docs
📚

SREワークブック

8件のドキュメント

  1. 1.
    🔌

    メタデータ中心ロギング(Metadata-Centric Logging)

    ログに記録するのはメタデータ(誰が・いつ・どこで・どのくらい・結果は何か)に限定し、コンテンツ(ユーザー入力・LLMの出力・ファイルの中身)を含めないアプローチ。

    フレームワーク
  2. 2.
    📐

    ログにはメタデータを記録し、コンテンツを含めない

    ログに記録するのは以下のメタデータのみとする:

    Tips
  3. 3.
    🔭

    オブザーバビリティ(Observability)

    システムの外部出力からその内部状態を推測できる度合い。分散システムやAIエージェントの運用に不可欠な能力

    概念
  4. 4.
    🎯

    SLO / SLI / SLA

    サービスの信頼性目標を数値化し、開発速度と信頼性のトレードオフを明示的に管理するフレームワーク

    概念
  5. 5.
    ⚖️

    エラーバジェットで優先度を決める

    エラーバジェットの残量に応じて、開発速度と信頼性改善のどちらを優先するかを自動的に決定する

    Tips
  6. 6.
    📟

    オンコール設計

    エンジニアが持続可能な形でオンコール当番を担えるようにするための設計原則。過負荷を防ぎ、心理的安全性を確保する

    フレームワーク
  7. 7.
    💰

    エラーバジェット

    SLOから導出される「失敗してよい余裕」を数値化し、開発速度と信頼性の意思決定に使うフレームワーク

    概念
  8. 8.
    ⏱️

    オンコール当番中も戦略的作業時間を確保する

    オンコール当番の期間中を反応的対応だけで埋めない。プロジェクト作業時間を確保することで持続可能なオンコール体制を実現する

    Tips