概念 #anthropic #science #claude-code #agent #scientific-computing #long-running #hpc 📚 Anthropic Research - サイエンス

科学計算のための長期実行Claude

概要

Claude Codeを使用して複数日間にわたる自律的な科学計算タスクを実行するための実践的ガイド記事。高レベルの目標を指定するだけでAIエージェントが人間の細かい監督なしに長期プロジェクトを完遂できることを、宇宙論的ボルツマン求解器の実装という実例で実証している。

要点

  • 宇宙論的ボルツマン求解器の微分可能版実装というドメイン外タスクで、参照実装に対して0.1%未満の精度を数日で達成した
  • モデルの長期タスクにおける能力向上により、従来数週間〜数ヶ月要するプロジェクトが数日で完結するようになった
  • 「深く結合されたパイプライン」タスクは並列化可能なタスクとは異なり、単一エージェントによる逐次的な作業が適している
  • CLAUDE.mdファイルがプロジェクト計画と設計決定の中央指令所として機能し、エージェントが参照・更新できる
  • CHANGELOG.mdに「失敗したアプローチとその理由」を記録することで、継続セッション間での重複作業を防止できる
  • 「Ralph ループ」というforループでエージェントを再プロンプトする技法により、エージェントの早期終了(エージェント的怠惰)を防止できる

主要概念・手法

3つの重要な構成要素

  1. CLAUDE.mdファイル:プロジェクト計画・設計決定を記録する中央指令所として機能し、エージェントが参照・更新できる
  2. CHANGELOG.md(進捗ファイル):失敗したアプローチとその理由を含む長期記憶として、継続セッション間での重複作業を防止する
  3. テストオラクル:参照実装を用いた継続的なユニットテストにより、エージェントが進捗を定量的に測定できる

インフラ活用 SLURMスケジューラ統合・tmuxセッション・Gitコミット戦略により、HPCクラスタでの長期実行と進捗追跡を実現している。

機会費用の概念 計算と構想の両立が可能であるという意味での機会費用。実験を実行しないことが潜在的な進捗の喪失につながるという認識が、長期実行エージェント活用の動機となっている。

出典: https://www.anthropic.com/research/long-running-Claude