ディープリサーチワークフロー（Dify実践）

シナリオ概要

課題: 新規事業の市場調査や競合分析のレポートを作るのに、Webを何時間も検索して情報を集め、まとめるのに丸一日かかる。

解決策: Dify の Iteration ノードを使った「反復的リサーチ」ワークフロー。検索 → 読解 → 「まだ何が足りないか判断」 → 追加検索、を繰り返し、十分な情報が集まったら最終レポートを生成する。

入力: "2026年の生成AI市場のトレンドと主要プレイヤーを調査して"
  ↓ 約5分
出力: 10,000文字超のリサーチレポート
  - 市場規模・成長率の予測
  - 主要プレイヤーの動向（OpenAI/Anthropic/Google等）
  - 新興プレイヤー・注目スタートアップ
  - 技術トレンド（マルチモーダル/エージェント等）
  - 日本市場の特徴
  - 出典URLリスト付き

使用する Dify 機能

機能	役割
ノード一覧	Iteration / LLM（推論モード）/ Variable Assigner
ツール・プラグイン	Google Search / Web Scraper ツール
エージェント機能	自律的な調査判断
変数システム	反復間での状態管理

ワークフロー設計：3フェーズ構成

Phase 1: 意図特定
  [Start] → [LLM: 調査計画立案]
    → 調査すべき観点・初期検索クエリを生成

Phase 2: 反復探索（最大6回ループ）
  [Iteration]
    ├── [LLM: 推論] 「何を調べるべきか」判断
    ├── [Search Tool] 検索実行
    ├── [Web Scraper] ページ本文取得
    ├── [LLM: 読解] 得た情報を要約・評価
    └── [Variable Assigner] 発見事項・未解決事項を更新

Phase 3: レポート合成
  [LLM: レポート執筆]
    → 全発見事項を統合して最終レポート

詳細設計：反復探索フロー

管理する変数（6つ）

反復で積み上げる状態変数:

findings        : 集めた情報・発見事項（テキスト積み上げ）
executed_queries: 実行済みの検索クエリ（重複防止）
current_loop    : 現在のループ回数（0〜5）
visited_urls    : 訪問済みURL（重複防止）
knowledge_gaps  : まだ調べられていない空白（次の検索に使う）
image_urls      : 図表・グラフのURL（レポートに埋め込む）

LLM: 推論ノード（何を調べるべきか決定）

System:
あなたは優秀なリサーチャーです。
現在の調査状況を評価し、次のアクションを決定してください。

出力形式（JSON）:
{
  "is_sufficient": false,  // true なら調査終了
  "justification": "まだ〇〇について情報が不足しています",
  "next_queries": [
    "次に検索すべきクエリ1",
    "次に検索すべきクエリ2"
  ],
  "priority_gaps": ["特に重要な未解決の疑問"]
}

User:
調査テーマ: {{theme}}

現在の発見事項:
{{findings}}

実行済みクエリ（これらは使わないこと）:
{{executed_queries}}

未解決事項:
{{knowledge_gaps}}

ループ回数: {{current_loop}} / 6

調査終了の判断

[Conditional Branch]
  IF {{reasoning.is_sufficient}} == true
  OR {{current_loop}} >= 6
    → Phase 3: レポート合成へ
  ELSE
    → 次のループへ

Phase 3: レポート執筆プロンプト

System:
あなたはシニアリサーチアナリストです。
収集した情報を基に、専門的かつ読みやすいリサーチレポートを執筆してください。

レポート構成:
## エグゼクティブサマリー（300字）

## 1. 市場概要・背景

## 2. 主要トレンド

## 3. 主要プレイヤー分析

## 4. 機会と課題

## 5. 今後の展望

## 参考資料
（URLリスト）

品質要件:
- 具体的な数値・データを含める（「急成長している」ではなく「前年比X%成長」）
- 主張には出典を示す [出典: URL]
- 相互矛盾する情報がある場合は両論を併記する

User:
調査テーマ: {{theme}}

収集した全情報:
{{findings}}

参照URL一覧:
{{visited_urls}}

実行時間とコストの目安

設定例:
  ループ回数: 最大6回
  各ループで検索: 2〜3クエリ
  使用モデル: GPT-4o

実行時間: 3〜7分

コスト（概算）:
  推論ノード: 6回 × 約2000トークン = 12,000トークン
  検索結果読解: 6回 × 約3000トークン = 18,000トークン
  最終レポート生成: 約5000トークン
  合計: 約35,000〜50,000トークン
  GPT-4o 料金: 約0.15〜0.20ドル（25〜30円）

→ 人間が数時間かけてやることが30円でできる

応用パターン

競合モニタリング（定期実行）

週次スケジュール実行:
  テーマ: "{{competitor_name}} の直近の動向・プレスリリース・製品更新"
  → 毎週月曜朝に Slack へ競合情報サマリーを自動送信

学術論文サーベイ

arXiv + Semantic Scholar の API ツールを追加:
  テーマ: "Transformer アーキテクチャの最新研究トレンド（2025〜2026）"
  → 論文タイトル・著者・要約・引用数を収集
  → 「読む価値がある論文」トップ10をランキング

投資先候補の事前調査

テーマ: "スタートアップ〇〇社の事業・競合・市場について調査"
  → 会社HP・ニュース・求人情報・資金調達情報を収集
  → 投資検討メモを自動生成

注意点

1. 情報の鮮度
   → Webから取得するので情報は「取得時点」のもの
   → 時事情報は日付を確認してから使う

2. ハルシネーションの防止
   → 「出典 URL がない情報は書かない」をプロンプトに入れる
   → レポート内の数値はすべてURL付きであることを確認

3. レートリミット
   → 検索APIを連続で叩くと制限に引っかかる
   → ループ間に少し待機するか、複数の検索APIを用意する

4. 機密性
   → 競合の公開情報のみを扱う
   → 非公開・内部情報の取得を目的とした使用は禁止

参考：他のユースケース

マルチエージェントオーケストレーション — 複数エージェントによる協調リサーチ
競合情報・ニュースモニタリング — 定期実行パターン