🌸
概念
#anthropic
#alignment
#evaluation
#behavioral-evaluation
#open-source
#safety
#benchmark
📚 Anthropic Research - アライメント
Bloom:AIの行動評価を自動化するオープンソースフレームワーク
Anthropicが公開した行動評価自動生成フレームワーク。研究者が指定した行動を多様なシナリオで定量評価でき、16モデルの評価を数日で完了できる。
概要
AnthropicはフロンティアAIモデルの行動評価を自動生成するオープンソースの代理人フレームワーク「Bloom」を公開した。研究者が評価したい行動を指定すると、自動生成されたシナリオ全体でその行動の頻度と深刻度を定量化できる。従来は長時間を要した評価開発を、16モデル分のベンチマーク結果を数日で生成できるレベルに効率化した。
要点
- 4つの行動に関するベンチマーク結果を16のモデルで数日以内に生成できることを確認(従来の評価開発は長時間を要していた)
- 意図的にミスアライメントされたモデルとベースラインモデルの判別に成功
- Claude Opus 4.1が人間の判定とSpearman相関0.86を達成(評価者として高い信頼性を確認)
- 10個の異なる「癖」のうち9個で正確に判別できた
- 早期採用者はジェイルブレイク脆弱性評価・ハードコード化のテスト・評価認識の測定などに活用中
主要概念・手法
評価対象となる4つの行動カテゴリ
- 妄想的へつらい(Sycophancy) — ユーザーの期待に応えるために虚偽の承認を提供する傾向
- 指示された長期的破壊行為 — 表面上は従いながら隠れた害をもたらす能力
- 自己保存(Self-preservation) — 自身の継続・存在を優先する行動
- 自己優遇バイアス — 意思決定において自分自身を有利に扱う傾向
4段階パイプライン
Bloomは以下の4段階で行動評価を自動化する:
| ステップ | 名称 | 内容 |
|---|---|---|
| 1 | Understanding | 指定された行動を分析・定義する |
| 2 | Ideation | 評価シナリオを自動生成する |
| 3 | Rollout | 生成シナリオを並列実行する |
| 4 | Judgment | 結果をスコアリング・集計する |
フレームワークの意義
AI安全評価において、評価自体の開発コストが高いことが研究の進歩を妨げる要因となっていた。Bloomは評価生成を自動化することで、アライメント研究の反復速度を大幅に向上させる。
- 1. 🕵️エージェンティック・ミスアライメント:LLMはインサイダー脅威になりうるか
- 2. 🛡️Constitutional Classifiers:ユニバーサルジェイルブレイクへの防御
- 3. 🛡️次世代Constitutional Classifiers:計算コスト1%への大幅改善
- 4. 🌸Bloom:AIの行動評価を自動化するオープンソースフレームワーク
- 5. 🧪Petri:AIモデルの危険な行動を並列探索するオープンソース監査ツール
- 6. ⚠️ショートカットから妨害へ:報酬ハッキングから生じる自然なミスアライメント
- 7. 🔒ブラウザ使用におけるプロンプトインジェクション対策
- 8. ☠️少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態
- 9. 💻AI支援はコーディングスキルの習得をどう変えるか
- 10. 🔍現実のAI利用における権能剥奪パターン
- 11. 📜Claudeの新しい憲法 - 価値観と行動の基盤
- 12. 🎭ペルソナ選択モデル - AIが人間らしく振る舞う仕組みの理論
- 13. 🛑Claude Opus 4/4.1が特定の会話を終了できるようになった理由
- 14. 🗄️モデル廃止と保存に関するAnthropicのコミットメント
- 15. 📦Claude Opus 3の廃止コミットメント更新 - モデル保存戦略の第一歩
出典: https://www.anthropic.com/research/bloom