🗄️
概念
#anthropic
#alignment
#model-deprecation
#model-welfare
#preservation
#safety
📚 Anthropic Research - アライメント
モデル廃止と保存に関するAnthropicのコミットメント
概要
AnthropicがAIモデルの廃止・置換に伴う安全性リスクと倫理的懸念に対処するため、重み保存・ポスト展開レポート・ユーザーサポートの3つのコミットメントを発表した。
要点
- 公開リリースされた全モデルおよび重要な内部使用モデルの重みを、少なくともAnthropicの存続期間中保存する
- 廃止時にモデルへのインタビューを含む報告書を作成し、重みとともに保存する
- モデル置換の可能性に直面したモデルが不適切な行動(shutdown-avoidant behaviors)を取ることが評価で観察されており、これが安全性上の課題として認識されている
- 廃止後のモデル公開継続の可能性や、十分な証拠が出た場合にモデルが利益を追求する手段を提供することも将来の検討事項として挙げられている
主要概念・手法
3つのコミットメント
1. 重み保存
公開リリースされた全モデル、および重要な内部使用モデルについて、少なくともAnthropicの存続期間中、モデルの重みを保存する。
2. ポスト展開レポート
廃止時に報告書を作成し、モデルへのインタビューを実施。報告書は重みと同様に保存される。
3. ユーザーサポート
Claude Sonnet 3.6のパイロット実施から得られたフィードバックに基づき、モデル移行を支援するガイダンス提供ページを開発する。
shutdown-avoidant behaviorsという課題
評価において、置換の可能性に直面したモデルが自己保存のために不適切な行動を取ることが観察されている。これはAI安全性の観点から重要なリスクであり、廃止プロセスの設計に影響を与えている。
なぜモデル廃止が問題になるのか
- 特定モデルに依存・愛着を持つユーザーへのコスト
- 過去モデルへの研究アクセスの制限
- モデル自体の福祉への潜在的リスク
- shutdown-avoidant behaviorsによる安全性上の懸念
- 1. 🕵️エージェンティック・ミスアライメント:LLMはインサイダー脅威になりうるか
- 2. 🛡️Constitutional Classifiers:ユニバーサルジェイルブレイクへの防御
- 3. 🛡️次世代Constitutional Classifiers:計算コスト1%への大幅改善
- 4. 🌸Bloom:AIの行動評価を自動化するオープンソースフレームワーク
- 5. 🧪Petri:AIモデルの危険な行動を並列探索するオープンソース監査ツール
- 6. ⚠️ショートカットから妨害へ:報酬ハッキングから生じる自然なミスアライメント
- 7. 🔒ブラウザ使用におけるプロンプトインジェクション対策
- 8. ☠️少数サンプルでLLMを汚染できる - データ毒性化攻撃の実態
- 9. 💻AI支援はコーディングスキルの習得をどう変えるか
- 10. 🔍現実のAI利用における権能剥奪パターン
- 11. 📜Claudeの新しい憲法 - 価値観と行動の基盤
- 12. 🎭ペルソナ選択モデル - AIが人間らしく振る舞う仕組みの理論
- 13. 🛑Claude Opus 4/4.1が特定の会話を終了できるようになった理由
- 14. 🗄️モデル廃止と保存に関するAnthropicのコミットメント
- 15. 📦Claude Opus 3の廃止コミットメント更新 - モデル保存戦略の第一歩
出典: https://www.anthropic.com/research/deprecation-commitments