Dify コスト設計入門

コスト構造の全体像

Dify の費用は「Dify 自体の費用」と「LLM API の費用」の2層に分かれる。

┌─────────────────────────────────────────────────┐
│  Dify 利用料                                      │
│  Cloud 無料プラン: 200 実行/月 まで無料           │
│  Pro プラン: $59/月（無制限実行）                 │
│  セルフホスト: 無料（サーバー代のみ）             │
└─────────────────────────────────────────────────┘
          +
┌─────────────────────────────────────────────────┐
│  LLM API 利用料（従量課金）                       │
│  OpenAI・Anthropic・Google 等に別途支払う         │
│  ← ここが主なコストになることが多い              │
└─────────────────────────────────────────────────┘

トークンとは何か

LLM の課金単位はトークン（単語より少し小さい単位）。

日本語のトークン換算の目安:
  日本語 1文字 ≒ 1〜2トークン
  英語  1単語 ≒ 1〜1.5トークン

例:
  「今日の天気はどうですか？」(13文字) ≒ 20〜30トークン
  「A: 東京の本日の天気は晴れです」(18文字) ≒ 30〜50トークン

  短い Q&A 1往復 ≒ 100〜500トークン
  RAG付きの回答（文書チャンク込み）≒ 1,000〜5,000トークン

主要モデルの料金比較（2026年4月時点）

モデル	入力 (1Mトークン)	出力 (1Mトークン)	特徴
GPT-4o mini	$0.15	$0.60	最安・十分な精度
GPT-4o	$2.50	$10.00	高精度・バランス
Claude 3 Haiku	$0.25	$1.25	高速・安価
Claude 3.5 Sonnet	$3.00	$15.00	高精度・長文得意
Gemini 2.0 Flash	$0.10	$0.40	最安クラス
Llama 3.1（Ollama）	無料	無料	セルフホスト必須

料金は変動するため OpenAI Pricing 等で最新値を確認してください。

よくある用途別コスト試算

シナリオ1: 社内FAQ ボット（月100回利用）

想定:
  利用回数: 100回/月
  1回あたりのトークン:
    ユーザー質問: 100トークン
    RAGコンテキスト: 1,000トークン
    回答: 500トークン
    合計: 1,600トークン/回

コスト計算（GPT-4o mini使用）:
  入力: 1,100トークン × 100回 × $0.15/1M = $0.0165
  出力:   500トークン × 100回 × $0.60/1M = $0.030
  合計: 約 $0.047（7円/月）

→ ほぼ無料

シナリオ2: カスタマーサポートボット（月10,000回利用）

想定:
  利用回数: 10,000回/月
  1回あたり: 2,000トークン（RAG込み）

コスト計算:
  GPT-4o mini:
    (1,500 × $0.15 + 500 × $0.60) × 10,000 / 1,000,000
    = ($0.225 + $0.30) / 100 × 10,000 = 約 $52/月（7,800円）

  GPT-4o（高精度版）:
    同じ計算: 約 $375/月（56,000円）

→ コスト重視なら GPT-4o mini 一択
→ 精度が必要な箇所だけ GPT-4o に切り替える設計も有効

シナリオ3: コンテンツ一括生成（月1,000件）

想定:
  生成件数: 1,000件/月
  1件あたり:
    入力（商品情報）: 500トークン
    出力（説明文200字）: 300トークン

コスト計算（GPT-4o mini）:
  入力: 500 × 1,000 × $0.15/1M = $0.075
  出力: 300 × 1,000 × $0.60/1M = $0.18
  合計: $0.255（約38円/月）

→ 1件あたり 0.038円
→ 手作業なら1件10分 × 1,000件 = 166時間 vs 約38円

シナリオ4: PDFドキュメント分析（月100件）

想定:
  処理件数: 100件/月
  1件あたり:
    PDF本文: 5,000トークン（20ページ相当）
    分析プロンプト: 500トークン
    出力（分析結果）: 1,000トークン
    合計: 6,500トークン

コスト計算（GPT-4o）:
  入力: 5,500 × 100 × $2.50/1M = $1.375
  出力: 1,000 × 100 × $10.00/1M = $1.00
  合計: $2.375（約360円/月）

→ 100件の手動分析 vs 月360円

コスト削減の実践テクニック

1. 安いモデルから始める

開発・テスト段階:
  → 常に一番安いモデル（GPT-4o mini / Gemini Flash）で動作確認

本番:
  → 精度が足りない箇所だけ高いモデルに上げる
  → 全処理を高いモデルにする必要はない

分岐設計:
  シンプルな分類・翻訳 → GPT-4o mini
  複雑な推論・長文分析 → Claude 3.5 Sonnet

2. プロンプトを短くする

入力トークンを削減する = コスト削減に直結

Before（長い）:
  「あなたは優秀なカスタマーサポート担当者で、ユーザーが送ってくる質問を親身になって
   丁寧に、かつわかりやすく、できるだけ簡潔に、要点を絞って回答してください。
   もし情報が不足している場合は...（300トークン以上）」

After（短い）:
  「カスタマーサポートとして簡潔に回答。不明な場合は聞き返す。（50トークン）」

→ System Prompt を短くするだけで 1回あたり数十〜数百トークン削減できる

3. Knowledge Retrieval の top_k を最小化

top_k=10 → 10チャンク × 1チャンク500トークン = 5,000トークン/回
top_k=3  → 3チャンク  × 500トークン         = 1,500トークン/回

同じ精度で top_k を下げられないか実験する。
score_threshold を上げることで関係のないチャンクを除外する。

4. キャッシュを活用する

Anthropic のプロンプトキャッシュ:
  同じ System Prompt の繰り返し呼び出しを 90% オフでキャッシュ
  → 大きな System Prompt を使うアプリで特に効果的

Helicone のキャッシュ:
  まったく同じリクエストを 100% 無料でキャッシュ
  → FAQ ボットのよく来る質問に効果的

5. ローカルモデルを使う

Ollama（ローカル LLM）:
  モデル: Llama 3.1 8B, Mistral 7B 等
  API 費用: 無料
  必要なもの: それなりのPCまたはサーバー（8GB VRAM以上）

向いている場面:
  ✓ 社外秘データを扱うため API に送れない
  ✓ 月間リクエスト数が多く API 費用が高い
  ✓ レイテンシより費用を優先したい

向いていない場面:
  ✗ 高い精度が必要なタスク（GPT-4o / Claude と差がある）
  ✗ すぐに始めたい（環境構築が必要）

コスト監視の設定

Dify のログで確認できること:
  各実行のトークン使用量・コスト（推定）
  → Logs ページ → 実行をクリック → 詳細を確認

外部ツールでの監視:
  Helicone: リアルタイムのコスト・使用量ダッシュボード
  Langfuse: プロジェクト別・モデル別のコスト分析

予算上限の設定:
  OpenAI: 月次使用量の上限を設定できる（Usage Limits）
  Anthropic: 同様のレート制限が設定可能
  → 意図しないコスト爆発を防ぐために必ず設定する

費用対効果の考え方

「月1万円かかる」は高いか安いか？

比較対象:
  月1万円 = 時給2,000円のアルバイト5時間分
  
  もしこのアプリが:
  - 担当者の作業を月10時間削減する → ROI: 20,000円 → 黒字
  - 月100件の問い合わせ対応 → 1件100円 → 妥当
  - 24時間対応可能になる → 機会損失を防ぐ → 価値大

費用対効果の簡易計算:
  削減できる人件費（時間 × 時給） > LLM API費用
  → 導入する価値がある

参考

30分で最初のDifyアプリを作る — まず動かしてみる
モデルプロバイダー統合 — モデル選択の詳細
可観測性・デバッグ — コスト監視ツールの連携