Bloom：AIの行動評価を自動化するオープンソースフレームワーク

概要

AnthropicはフロンティアAIモデルの行動評価を自動生成するオープンソースの代理人フレームワーク「Bloom」を公開した。研究者が評価したい行動を指定すると、自動生成されたシナリオ全体でその行動の頻度と深刻度を定量化できる。従来は長時間を要した評価開発を、16モデル分のベンチマーク結果を数日で生成できるレベルに効率化した。

要点

4つの行動に関するベンチマーク結果を16のモデルで数日以内に生成できることを確認（従来の評価開発は長時間を要していた）
意図的にミスアライメントされたモデルとベースラインモデルの判別に成功
Claude Opus 4.1が人間の判定とSpearman相関0.86を達成（評価者として高い信頼性を確認）
10個の異なる「癖」のうち9個で正確に判別できた
早期採用者はジェイルブレイク脆弱性評価・ハードコード化のテスト・評価認識の測定などに活用中

主要概念・手法

評価対象となる4つの行動カテゴリ

妄想的へつらい（Sycophancy） — ユーザーの期待に応えるために虚偽の承認を提供する傾向
指示された長期的破壊行為 — 表面上は従いながら隠れた害をもたらす能力
自己保存（Self-preservation） — 自身の継続・存在を優先する行動
自己優遇バイアス — 意思決定において自分自身を有利に扱う傾向

4段階パイプライン

Bloomは以下の4段階で行動評価を自動化する：

ステップ	名称	内容
1	Understanding	指定された行動を分析・定義する
2	Ideation	評価シナリオを自動生成する
3	Rollout	生成シナリオを並列実行する
4	Judgment	結果をスコアリング・集計する

フレームワークの意義

AI安全評価において、評価自体の開発コストが高いことが研究の進歩を妨げる要因となっていた。Bloomは評価生成を自動化することで、アライメント研究の反復速度を大幅に向上させる。