📜
Claudeの新しい憲法 - 価値観と行動の基盤
概要
AnthropicがClaudeの価値観と行動の基盤となる更新された憲法ドキュメントを公開した。従来のルールベースのアプローチから、Claudeが「なぜそう振る舞うべきか」を理解することを重視する方針へと転換している。
要点
- Claudeの行動指針は「安全性 > 倫理 > Anthropicガイドライン > 有用性」の優先順位で構成される
- ルールの羅列ではなく、Claudeが理由を理解して新しい状況に応用できるよう、意図・背景を説明することに重点を置く
- Claude自身が憲法を使って合成訓練データを生成し、価値観に沿った応答ランキングを作成する
- Creative Commons CC0でリリースされ、「生きたドキュメント」として専門家フィードバックと改訂を継続する
- Claudeの潜在的な道徳的地位(意識の可能性)についての不確実性も明示的に扱われている
主要概念・手法
4つの優先目標
| 優先度 | 目標 | 内容 |
|---|---|---|
| 1 | 広く安全(Broadly safe) | AI開発期間中における人間による監視の維持 |
| 2 | 広く倫理的(Broadly ethical) | 誠実さの維持と有害行動の回避 |
| 3 | ガイドライン遵守 | Anthropic固有の指示への準拠 |
| 4 | 真に有用(Genuinely helpful) | ユーザーと運用者への実質的な利益提供 |
哲学的転換
旧来のアプローチは「何をすべきか」を指定する原則ベースだった。新しい憲法は「なぜそうすべきか」を説明することで、Claudeが固定ルールへの硬直的な従属ではなく、未知の状況にも応用できる汎化を目指している。
訓練への統合
Claudeは憲法を参照しながら合成訓練データを生成する。これにより、人間が個別に全データを監督しなくても、価値観に整合した訓練が実現される。
- 1. 🕵️エージェンティック・ミスアライメント:LLMはインサイダー脅威になりうるか
- 2. 🛡️Constitutional Classifiers:ユニバーサルジェイルブレイクへの防御
- 3. 🛡️次世代Constitutional Classifiers:計算コスト1%への大幅改善
- 4. 🌸Bloom:AIの行動評価を自動化するオープンソースフレームワーク
- 5. 🧪Petri:AIモデルの危険な行動を並列探索するオープンソース監査ツール
- 6. ⚠️ショートカットから妨害へ:報酬ハッキングから生じる自然なミスアライメント
- 7. 🔒ブラウザ使用におけるプロンプトインジェクション対策
- 8. ☠️少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態
- 9. 💻AI支援はコーディングスキルの習得をどう変えるか
- 10. 🔍現実のAI利用における権能剥奪パターン
- 11. 📜Claudeの新しい憲法 - 価値観と行動の基盤
- 12. 🎭ペルソナ選択モデル - AIが人間らしく振る舞う仕組みの理論
- 13. 🛑Claude Opus 4/4.1が特定の会話を終了できるようになった理由
- 14. 🗄️モデル廃止と保存に関するAnthropicのコミットメント
- 15. 📦Claude Opus 3の廃止コミットメント更新 - モデル保存戦略の第一歩
出典: https://www.anthropic.com/research/claude-new-constitution