🛡️
概念 #anthropic #policy #cybersecurity #defense #vulnerability #AI-safety #benchmark 📚 Anthropic Research - ポリシー

サイバー防御者のためのAI構築:ClaudeのCybenchスコア76.5%達成

概要

Anthropicは、Claude Sonnet 4.5がCybenchベンチマークで76.5%の成功率を達成し、わずか6ヶ月でスコアを35.9%から倍増させたことを発表した。攻撃者がAIを悪用するリスクに対抗するため、防御側こそAIを積極活用すべきという立場から、サイバーセキュリティ防御に特化した研究成果を公開している。

要点

  • Claude Sonnet 4.5はCybenchベンチマークで76.5%を達成し、6ヶ月前の35.9%から大幅に向上した
  • CyberGymテストでは脆弱性の再現率が66.7%に達した
  • 30回の試行で新規脆弱性の発見率が33%以上という実務的な成果を示した
  • HackerOneのCPOによる実務検証では、平均脆弱性処理時間が44%削減されたと報告された
  • マルウェア作成などの攻撃的用途を意図的に避け、防御能力の強化に特化した研究アプローチを採用している
  • SOCの自動化・SIEM分析・ネットワークセキュリティ・アクティブディフェンスへの導入を組織に推奨している

実験内容・政策提言

研究の背景と立場

AIを悪用したサイバー攻撃の高度化が進む中で、Anthropicは「攻撃側だけがAIを活用する非対称な状況」を問題視した。防御側のセキュリティチームがAIを使いこなすことで、この非対称性を解消することを研究の目的とした。

研究の焦点

研究チームは以下の3領域に絞って能力強化を進めた:

  • コードベースの脆弱性検出:既存コードから潜在的な脆弱性を発見する能力
  • パッチの生成と検証:発見した脆弱性に対する修正コードの自動生成と有効性の確認
  • セキュリティインフラの弱点テスト:既存のセキュリティ設定に存在するギャップの特定

いずれも防御目的に限定した能力強化であり、攻撃に転用されることを防ぐ設計が施されている。

ベンチマーク結果

評価指標スコア
Cybenchベンチマーク(現在)76.5%
Cybenchベンチマーク(6ヶ月前)35.9%
CyberGym脆弱性再現率66.7%
新規脆弱性発見率(30回試行)33%以上

実務的な検証事例

HackerOneでの効果 HackerOneのCPOは、Claudeを活用することで平均脆弱性処理時間が44%削減されたと報告した。脆弱性トリアージ(優先度付け)の自動化や初期分析の支援において特に効果が高かった。

CrowdStrikeでの評価 CrowdStrikeの首席科学者は「創造的な攻撃シナリオの生成において強力な可能性を持つ」と指摘した。これは防御側が攻撃者の手口を先読みして対策を講じる「レッドチーミング支援」としての活用を想定したものだ。

組織への提言

Anthropicは以下の分野でAI防御ツールの導入を優先するよう組織に呼びかけている:

  • SOC(セキュリティオペレーションセンター)の自動化:アラートの一次対応と優先度付けの効率化
  • SIEM分析:大量のログデータからの異常検知の精度向上
  • ネットワークセキュリティエンジニアリング:設定ミスや脆弱な構成の発見
  • アクティブディフェンス:攻撃者の行動をリアルタイムで検出・対応する能力の強化

出典: https://www.anthropic.com/research/building-ai-cyber-defenders