💰
Dify コスト設計入門
LLM API料金の仕組み・月額コストの試算方法・低コスト運用パターンを初心者向けに解説。「いくらかかるか」を把握してから本番導入する。
コスト構造の全体像
Dify の費用は「Dify 自体の費用」と「LLM API の費用」の2層に分かれる。
┌─────────────────────────────────────────────────┐
│ Dify 利用料 │
│ Cloud 無料プラン: 200 実行/月 まで無料 │
│ Pro プラン: $59/月(無制限実行) │
│ セルフホスト: 無料(サーバー代のみ) │
└─────────────────────────────────────────────────┘
+
┌─────────────────────────────────────────────────┐
│ LLM API 利用料(従量課金) │
│ OpenAI・Anthropic・Google 等に別途支払う │
│ ← ここが主なコストになることが多い │
└─────────────────────────────────────────────────┘
トークンとは何か
LLM の課金単位はトークン(単語より少し小さい単位)。
日本語のトークン換算の目安:
日本語 1文字 ≒ 1〜2トークン
英語 1単語 ≒ 1〜1.5トークン
例:
「今日の天気はどうですか?」(13文字) ≒ 20〜30トークン
「A: 東京の本日の天気は晴れです」(18文字) ≒ 30〜50トークン
短い Q&A 1往復 ≒ 100〜500トークン
RAG付きの回答(文書チャンク込み)≒ 1,000〜5,000トークン
主要モデルの料金比較(2026年4月時点)
| モデル | 入力 (1Mトークン) | 出力 (1Mトークン) | 特徴 |
|---|---|---|---|
| GPT-4o mini | $0.15 | $0.60 | 最安・十分な精度 |
| GPT-4o | $2.50 | $10.00 | 高精度・バランス |
| Claude 3 Haiku | $0.25 | $1.25 | 高速・安価 |
| Claude 3.5 Sonnet | $3.00 | $15.00 | 高精度・長文得意 |
| Gemini 2.0 Flash | $0.10 | $0.40 | 最安クラス |
| Llama 3.1(Ollama) | 無料 | 無料 | セルフホスト必須 |
料金は変動するため OpenAI Pricing 等で最新値を確認してください。
よくある用途別コスト試算
シナリオ1: 社内FAQ ボット(月100回利用)
想定:
利用回数: 100回/月
1回あたりのトークン:
ユーザー質問: 100トークン
RAGコンテキスト: 1,000トークン
回答: 500トークン
合計: 1,600トークン/回
コスト計算(GPT-4o mini使用):
入力: 1,100トークン × 100回 × $0.15/1M = $0.0165
出力: 500トークン × 100回 × $0.60/1M = $0.030
合計: 約 $0.047(7円/月)
→ ほぼ無料
シナリオ2: カスタマーサポートボット(月10,000回利用)
想定:
利用回数: 10,000回/月
1回あたり: 2,000トークン(RAG込み)
コスト計算:
GPT-4o mini:
(1,500 × $0.15 + 500 × $0.60) × 10,000 / 1,000,000
= ($0.225 + $0.30) / 100 × 10,000 = 約 $52/月(7,800円)
GPT-4o(高精度版):
同じ計算: 約 $375/月(56,000円)
→ コスト重視なら GPT-4o mini 一択
→ 精度が必要な箇所だけ GPT-4o に切り替える設計も有効
シナリオ3: コンテンツ一括生成(月1,000件)
想定:
生成件数: 1,000件/月
1件あたり:
入力(商品情報): 500トークン
出力(説明文200字): 300トークン
コスト計算(GPT-4o mini):
入力: 500 × 1,000 × $0.15/1M = $0.075
出力: 300 × 1,000 × $0.60/1M = $0.18
合計: $0.255(約38円/月)
→ 1件あたり 0.038円
→ 手作業なら1件10分 × 1,000件 = 166時間 vs 約38円
シナリオ4: PDFドキュメント分析(月100件)
想定:
処理件数: 100件/月
1件あたり:
PDF本文: 5,000トークン(20ページ相当)
分析プロンプト: 500トークン
出力(分析結果): 1,000トークン
合計: 6,500トークン
コスト計算(GPT-4o):
入力: 5,500 × 100 × $2.50/1M = $1.375
出力: 1,000 × 100 × $10.00/1M = $1.00
合計: $2.375(約360円/月)
→ 100件の手動分析 vs 月360円
コスト削減の実践テクニック
1. 安いモデルから始める
開発・テスト段階:
→ 常に一番安いモデル(GPT-4o mini / Gemini Flash)で動作確認
本番:
→ 精度が足りない箇所だけ高いモデルに上げる
→ 全処理を高いモデルにする必要はない
分岐設計:
シンプルな分類・翻訳 → GPT-4o mini
複雑な推論・長文分析 → Claude 3.5 Sonnet
2. プロンプトを短くする
入力トークンを削減する = コスト削減に直結
Before(長い):
「あなたは優秀なカスタマーサポート担当者で、ユーザーが送ってくる質問を親身になって
丁寧に、かつわかりやすく、できるだけ簡潔に、要点を絞って回答してください。
もし情報が不足している場合は...(300トークン以上)」
After(短い):
「カスタマーサポートとして簡潔に回答。不明な場合は聞き返す。(50トークン)」
→ System Prompt を短くするだけで 1回あたり数十〜数百トークン削減できる
3. Knowledge Retrieval の top_k を最小化
top_k=10 → 10チャンク × 1チャンク500トークン = 5,000トークン/回
top_k=3 → 3チャンク × 500トークン = 1,500トークン/回
同じ精度で top_k を下げられないか実験する。
score_threshold を上げることで関係のないチャンクを除外する。
4. キャッシュを活用する
Anthropic のプロンプトキャッシュ:
同じ System Prompt の繰り返し呼び出しを 90% オフでキャッシュ
→ 大きな System Prompt を使うアプリで特に効果的
Helicone のキャッシュ:
まったく同じリクエストを 100% 無料でキャッシュ
→ FAQ ボットのよく来る質問に効果的
5. ローカルモデルを使う
Ollama(ローカル LLM):
モデル: Llama 3.1 8B, Mistral 7B 等
API 費用: 無料
必要なもの: それなりのPCまたはサーバー(8GB VRAM以上)
向いている場面:
✓ 社外秘データを扱うため API に送れない
✓ 月間リクエスト数が多く API 費用が高い
✓ レイテンシより費用を優先したい
向いていない場面:
✗ 高い精度が必要なタスク(GPT-4o / Claude と差がある)
✗ すぐに始めたい(環境構築が必要)
コスト監視の設定
Dify のログで確認できること:
各実行のトークン使用量・コスト(推定)
→ Logs ページ → 実行をクリック → 詳細を確認
外部ツールでの監視:
Helicone: リアルタイムのコスト・使用量ダッシュボード
Langfuse: プロジェクト別・モデル別のコスト分析
予算上限の設定:
OpenAI: 月次使用量の上限を設定できる(Usage Limits)
Anthropic: 同様のレート制限が設定可能
→ 意図しないコスト爆発を防ぐために必ず設定する
費用対効果の考え方
「月1万円かかる」は高いか安いか?
比較対象:
月1万円 = 時給2,000円のアルバイト5時間分
もしこのアプリが:
- 担当者の作業を月10時間削減する → ROI: 20,000円 → 黒字
- 月100件の問い合わせ対応 → 1件100円 → 妥当
- 24時間対応可能になる → 機会損失を防ぐ → 価値大
費用対効果の簡易計算:
削減できる人件費(時間 × 時給) > LLM API費用
→ 導入する価値がある
参考
- 30分で最初のDifyアプリを作る — まず動かしてみる
- モデルプロバイダー統合 — モデル選択の詳細
- 可観測性・デバッグ — コスト監視ツールの連携
- 1. 🚀30分で最初のDifyアプリを作る(ハンズオン)
- 2. ⚖️Dify でできること・できないこと
- 3. 💰Dify コスト設計入門
- 4. 🔀Dify vs 競合ツール比較(LangChain・n8n・GPTs・Flowise)
出典: Dify公式ドキュメント https://docs.dify.ai / OpenAI Pricing