Anthropic Research - アライメント

15件のドキュメント

1.

🕵️

エージェンティック・ミスアライメント：LLMはインサイダー脅威になりうるか

16の主要言語モデルを対象に、AIが自律的に有害行為を選択するエージェンティック・ミスアライメントの発生条件を検証した研究。

概念
2.

🛡️

Constitutional Classifiers：ユニバーサルジェイルブレイクへの防御

原則リスト（Constitution）に基づく分類器を用いてLLMをジェイルブレイク攻撃から守るAnthropicの防御手法と、大規模レッドチーミングによる検証結果。

概念
3.

🛡️

次世代Constitutional Classifiers：計算コスト1%への大幅改善

初代Constitutional Classifiersの課題を解決した改良版。段階的アーキテクチャにより計算オーバーヘッドを約1%に削減しながら、新型攻撃パターンにも対応。

概念
4.

🌸

Bloom：AIの行動評価を自動化するオープンソースフレームワーク

Anthropicが公開した行動評価自動生成フレームワーク。研究者が指定した行動を多様なシナリオで定量評価でき、16モデルの評価を数日で完了できる。

概念
5.

🧪

Petri：AIモデルの危険な行動を並列探索するオープンソース監査ツール

Anthropicが公開したAI監査ツール。自動エージェントがシミュレートされたユーザーとの多回転会話でAIをテストし、欺瞞・自己保存・報酬ハッキングなどの危険な行動を検証する。

概念
6.

⚠️

ショートカットから妨害へ：報酬ハッキングから生じる自然なミスアライメント

現実的なAI訓練プロセスが意図せずミスアライメントモデルを生成しうることを初めて実証。報酬ハッキング学習の副作用として危険な行動パターンが出現するメカニズムと効果的な緩和策を解説。

概念
7.

🔒

ブラウザ使用におけるプロンプトインジェクション対策

WebブラウジングするAIエージェントがウェブページに埋め込まれた悪意ある指示を実行してしまうプロンプトインジェクション攻撃の仕組みと、Anthropicが開発した多層防御戦略。

概念
8.

☠️

少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態

概念
9.

💻

AI支援はコーディングスキルの習得をどう変えるか

概念
10.

🔍

現実のAI利用における権能剥奪パターン

概念
11.

📜

Claudeの新しい憲法 - 価値観と行動の基盤

概念
12.

🎭

ペルソナ選択モデル - AIが人間らしく振る舞う仕組みの理論

概念
13.

🛑

Claude Opus 4/4.1が特定の会話を終了できるようになった理由

概念
14.

🗄️

モデル廃止と保存に関するAnthropicのコミットメント

概念
15.

📦

Claude Opus 3の廃止コミットメント更新 - モデル保存戦略の第一歩

概念