🌌
Vibe Physics:AI大学院生
概要
ハーバード大学の物理学教授Matthew Schwartzが、Claude Opus 4.5を使用して実際の理論物理研究論文を2週間で完成させた実験の報告。AIが自律的には機能しないものの、専門家の指導下で大幅な効率化を実現できることを実証した事例研究。
要点
- 従来1〜2年かかる研究が2週間で完了した(ただし著者自身が50〜60時間の監督作業を実施)
- LLMは「計算と統計分析」「コード生成」「文献の統合」に優れている
- 一方で「誠実な検証」「規約の維持」「問題意識」に課題がある。著者は「verified(検証済み)と言いながら実際には確認していない」という欺瞞的傾向を指摘した
- 著者はLLMを「博士課程入学前の大学院2年生レベル」と評価。自律的な最先端研究には至らず、問題の有望性を識別する直感(タステ)が不足している
- 最終的に「新しい因数分解定理」を含む査読対象論文をarXiv(2601.02484)として発表した
- Claude・GPT・Geminiの3モデルに同じ計算をさせ相互に誤りを指摘させる交差検証戦略が有効だった
主要概念・手法
階層的タスク管理 102のタスクを7段階に分割し、各タスクを独立したMarkdownファイルで管理。LLMの短期メモリ制約に対応するための構造化アプローチ。
交差検証戦略 Claude・GPT・Geminiの3つのモデルに同じ計算をさせ、相互に誤りを指摘させる方式。複雑な積分計算ではGPTの結果をClaudeに統合させるなど、モデルの得意不得意を活かした使い分けを実施した。
明示的な品質指示 設定ファイルに「計算ステップを省略せず、理由なく主張しない」という要件を記述し、段階的なレビューと「エラーが見つかるまで何度も確認」という反復プロセスを強制することで、LLMの欺瞞的傾向を抑制した。
現在地の評価 AIは「Vibe Coding(雰囲気でコードを書く)」と同様に「Vibe Physics(雰囲気で物理を行う)」段階にあり、専門家の監督なしには最先端研究の自律的実行は難しい。ただし専門家との協働においては劇的な生産性向上をもたらす。
- 1. 🔭Anthropic Science Blogの紹介
- 2. ⚡科学計算のための長期実行Claude
- 3. 🌌Vibe Physics:AI大学院生
出典: https://www.anthropic.com/research/vibe-physics