📜
概念 #anthropic #alignment #constitutional-ai #values #safety #ethics 📚 Anthropic Research - アライメント

Claudeの新しい憲法 - 価値観と行動の基盤

概要

AnthropicがClaudeの価値観と行動の基盤となる更新された憲法ドキュメントを公開した。従来のルールベースのアプローチから、Claudeが「なぜそう振る舞うべきか」を理解することを重視する方針へと転換している。

要点

  • Claudeの行動指針は「安全性 > 倫理 > Anthropicガイドライン > 有用性」の優先順位で構成される
  • ルールの羅列ではなく、Claudeが理由を理解して新しい状況に応用できるよう、意図・背景を説明することに重点を置く
  • Claude自身が憲法を使って合成訓練データを生成し、価値観に沿った応答ランキングを作成する
  • Creative Commons CC0でリリースされ、「生きたドキュメント」として専門家フィードバックと改訂を継続する
  • Claudeの潜在的な道徳的地位(意識の可能性)についての不確実性も明示的に扱われている

主要概念・手法

4つの優先目標

優先度目標内容
1広く安全(Broadly safe)AI開発期間中における人間による監視の維持
2広く倫理的(Broadly ethical)誠実さの維持と有害行動の回避
3ガイドライン遵守Anthropic固有の指示への準拠
4真に有用(Genuinely helpful)ユーザーと運用者への実質的な利益提供

哲学的転換

旧来のアプローチは「何をすべきか」を指定する原則ベースだった。新しい憲法は「なぜそうすべきか」を説明することで、Claudeが固定ルールへの硬直的な従属ではなく、未知の状況にも応用できる汎化を目指している。

訓練への統合

Claudeは憲法を参照しながら合成訓練データを生成する。これにより、人間が個別に全データを監督しなくても、価値観に整合した訓練が実現される。

出典: https://www.anthropic.com/research/claude-new-constitution