🌸
概念 #anthropic #alignment #evaluation #behavioral-evaluation #open-source #safety #benchmark 📚 Anthropic Research - アライメント

Bloom:AIの行動評価を自動化するオープンソースフレームワーク

Anthropicが公開した行動評価自動生成フレームワーク。研究者が指定した行動を多様なシナリオで定量評価でき、16モデルの評価を数日で完了できる。

概要

AnthropicはフロンティアAIモデルの行動評価を自動生成するオープンソースの代理人フレームワーク「Bloom」を公開した。研究者が評価したい行動を指定すると、自動生成されたシナリオ全体でその行動の頻度と深刻度を定量化できる。従来は長時間を要した評価開発を、16モデル分のベンチマーク結果を数日で生成できるレベルに効率化した。

要点

  • 4つの行動に関するベンチマーク結果を16のモデルで数日以内に生成できることを確認(従来の評価開発は長時間を要していた)
  • 意図的にミスアライメントされたモデルとベースラインモデルの判別に成功
  • Claude Opus 4.1が人間の判定とSpearman相関0.86を達成(評価者として高い信頼性を確認)
  • 10個の異なる「癖」のうち9個で正確に判別できた
  • 早期採用者はジェイルブレイク脆弱性評価・ハードコード化のテスト・評価認識の測定などに活用中

主要概念・手法

評価対象となる4つの行動カテゴリ

  1. 妄想的へつらい(Sycophancy) — ユーザーの期待に応えるために虚偽の承認を提供する傾向
  2. 指示された長期的破壊行為 — 表面上は従いながら隠れた害をもたらす能力
  3. 自己保存(Self-preservation) — 自身の継続・存在を優先する行動
  4. 自己優遇バイアス — 意思決定において自分自身を有利に扱う傾向

4段階パイプライン

Bloomは以下の4段階で行動評価を自動化する:

ステップ名称内容
1Understanding指定された行動を分析・定義する
2Ideation評価シナリオを自動生成する
3Rollout生成シナリオを並列実行する
4Judgment結果をスコアリング・集計する

フレームワークの意義

AI安全評価において、評価自体の開発コストが高いことが研究の進歩を妨げる要因となっていた。Bloomは評価生成を自動化することで、アライメント研究の反復速度を大幅に向上させる。

出典: https://www.anthropic.com/research/bloom