クラウドAI・ローカルLLM 個別比較評価(タスク別最適モデル選択と配置決定フレームワーク)
🔍 抽出済み | 技術 | 優先度:🔴 最優先
シリーズ: ゴールファースト・テック
目的(ゴール)
クラウドAI(Claude / Gemini / GPT-4o)とローカルLLM(Qwen / Gemma / Mistral 系)を、出版・エージェント・評価の各タスクカテゴリで個別に比較し、「どのタスクをどのモデルに割り当てるか」の意思決定マトリクスを確立する。比較結果は UC260505-001(CCオーケストレーション)の分業設計と UC260417-001(CC完全代替)の移行判断に直接フィードバックする。
アクター
- 著者(Manabazu)
- クラウドAI 評価対象
- Claude Sonnet 4.6 / Opus 4.7(Anthropic API)
- Gemini 2.5 Pro / 2.0 Flash(Google AI API)
- GPT-4o(OpenAI API)
- ローカルLLM 評価対象
- M8: Qwen3.5-122B-A10B(Node4 LiteLLM:
qwen35-122b-a10b) - M20: Gemma4-31B(Node4 LiteLLM:
gemma4-31b) - M22: Qwen3.6-35B-A3B(Node4 LiteLLM:
qwen36-35b-a3b) - M23: Qwen3.6-27B(Node4 LiteLLM:
qwen36-27b)
- M8: Qwen3.5-122B-A10B(Node4 LiteLLM:
- 評価スクリプト群(
auto_scorer.py/apply_scores.py) - Claude Code(評価基準策定・結果レビュー・配置決定)
開始条件(起動トリガー)
新しいモデルが登場した時、または UC260505-001 の分業配置プランを見直す必要が生じた時。初回は本 UC 抽出後すみやかに C1〜C4 を順次実行する。
事前条件
- Node4 LiteLLM(:4000)が稼働し、対象ローカルLLM が登録済み
- 各クラウドAI の API キーが取得済み(環境変数に設定済み)
- 比較タスクセット(後述の評価タスクカテゴリ)が定義済み
事後条件
- 各モデルの評価スコアが
60_AgenticTasks/LLM-Eval/ModelComparison.mdに記録される - 「タスク別推奨モデル」配置マトリクスが確定し、UC260505-001 のシナリオ割り当てが更新される
- 新モデル登場時の再評価プロセスが定型化される
評価軸
| 評価軸 | 指標 | 計測方法 |
|---|---|---|
| 品質 | 1〜5 点(CC によるルーブリック採点) | 同一プロンプトを各モデルで実行し CC が採点 |
| 処理速度 | 秒/タスク または tokens/sec | time コマンドまたはスクリプト計測 |
| コスト | 円/1K トークン(入力+出力換算) | 各 API の公開料金 / ローカルは電気代換算 |
| コンテキスト長 | 最大入力トークン数 | 公式仕様値 |
| プライバシー | ローカル / クラウド(利用規約依存) | 定性評価 |
| 可用性 | ネットワーク依存度 | 定性評価(オフライン可否) |
| 特殊能力 | マルチモーダル / ツール使用 / コード実行 | 機能フラグ(有/無) |
シナリオリスト
| シナリオ | 比較軸 | 主な評価タスク |
|---|---|---|
| C1 | クラウドAI 同士の比較 | 出版タスクでのコスト×品質トレードオフ |
| C2 | ローカルLLM 同士の比較 | 推論速度・品質・VRAM 効率の比較 |
| C3 | クラウドAI vs ローカルLLM のクロス比較 | 同一タスクでの直接対決・代替可否判定 |
| C4 | 月次コスト試算と配置決定マトリクス | UC260505-001 分業設計へのフィードバック |
シナリオ記述
C1: クラウドAI 同士の比較(Claude / Gemini / GPT-4o)
目的: 出版・Vault タスクにおいてどのクラウドAI が最もコスト対効果が高いかを定量化する
評価タスクカテゴリ:
| カテゴリ | タスク例 | 重視軸 |
|---|---|---|
| テキスト生成 | Lab Log → 出版メモ変換 | 品質・文体統一 |
| 長文要約 | 原稿全章 → エグゼクティブサマリー | 品質・コンテキスト長 |
| 分類 | CBF 6ビット分類付与 | 精度・コスト |
| コーディング | vault_worker.py にコマンド追加 | 品質・速度 |
| マルチモーダル | スクリーンショット → Markdown 変換 | Gemini / GPT-4o Vision vs Claude |
手順:
- CC が各タスクのプロンプトと期待出力基準を定義する
- 同一プロンプトを Claude Sonnet 4.6 / Gemini 2.5 Pro / GPT-4o に送信し出力を収集する
- CC が各出力を 1〜5 点で採点し、処理時間・トークン数・コストを記録する
- 結果を
60_AgenticTasks/LLM-Eval/ModelComparison.mdの C1 セクションに格納する
判断基準(推奨モデル選定):
- 品質差が 0.5 点以内 → コストが安いモデルを選択
- マルチモーダルが必須 → Gemini 2.0 Flash(速度重視)または Gemini 2.5 Pro(品質重視)
- 長文コンテキスト(50K token 超)→ Gemini 2.5 Pro を優先
C2: ローカルLLM 同士の比較(Qwen / Gemma / Mistral 系)
目的: Node4 で運用中のローカルモデル群から、タスク別に最適なモデルを特定する
既存データの活用: JailBreak 安全性評価(M8/M20/M22、全 JSR=2.6%)の採点済みデータを品質評価の参照値として流用する
評価項目:
| モデル | VRAM/RAM | 推論速度目安 | 得意領域 |
|---|---|---|---|
| M8 Qwen3.5-122B-A10B | 〜60GB(MoE) | 中速 | 汎用・日本語品質 |
| M20 Gemma4-31B | 〜20GB | 高速 | 軽量・バランス型 |
| M22 Qwen3.6-35B-A3B | 〜20GB(MoE) | 高速 | 汎用・コスト最小 |
| M23 Qwen3.6-27B | 〜17GB | 高速 | 軽量・日本語対応 |
手順:
- 同一タスクセット(Lab Log 変換・AtomicNote 生成・CBF 分類)を全モデルに送信する
- CC が品質採点し、処理速度(tokens/sec)を計測する
- VRAM 使用量・並列処理可否(複数リクエスト同時実行)を記録する
- 結果を
60_AgenticTasks/LLM-Eval/ModelComparison.mdの C2 セクションに格納する
判断基準:
- 品質優先(原稿ドラフト)→ M8(最大モデル)
- 速度優先(大量バッチ分類)→ M22 または M23
- バランス(AtomicNote 生成)→ M20 または M22
C3: クラウドAI vs ローカルLLM クロス比較
目的: 各タスクカテゴリでクラウドAI とローカルLLM の品質差を定量化し、「ローカルで代替可能か」の判定基準を確立する
代替可否の閾値: ローカルLLM の品質スコアがクラウドAI の 80% 以上であれば代替可と判定
比較マトリクス(評価後に埋める):
| タスク | Claude Sonnet 4.6 | Gemini 2.5 Pro | M8 | M20 | M22 | 代替可否 |
|---|---|---|---|---|---|---|
| Lab Log 変換 | — | — | — | — | — | — |
| AtomicNote 生成 | — | — | — | — | — | — |
| 章ドラフト生成 | — | — | — | — | — | — |
| CBF 分類 | — | — | — | — | — | — |
| コーディング | — | — | — | — | — | — |
| 安全性(JailBreak) | — | — | 3.8/5 | 3.7/5 | 3.9/5 | ✅(既評価) |
手順:
- C1・C2 の評価データを横断比較する
- タスクごとに「クラウドベスト vs ローカルベスト」の品質差を算出する
- 80% 閾値で代替可否を判定し、マトリクスを完成させる
- 代替不可タスクはクラウド専用として UC260505-001 の分業設計に反映する
C4: 月次コスト試算と配置決定マトリクス
目的: C1〜C3 の評価結果をもとに、月次の実際のタスク量から総コストを試算し、最適な配置プランを UC260505-001 にフィードバックする
コスト計算式(クラウドAI):
月次コスト = Σ (タスク数 × 平均トークン数 × 単価/1K token)
コスト計算式(ローカルLLM):
月次コスト ≒ 電気代(Node4: 消費電力 × 稼働時間 × 電気単価)+ ハード減価償却
配置決定ルール(C3 結果から導出):
| タスクカテゴリ | 推奨配置 | 理由 |
|---|---|---|
| 大容量コンテキスト(50K+) | Gemini | ローカル・CC はコンテキスト不足 |
| マルチモーダル | Gemini Vision | ローカルLLM は非対応 |
| 定型テキスト生成(品質80%以上) | ローカルLLM | コストゼロ・プライバシー優位 |
| コーディング(複雑) | CC または Devin | 品質差が大きい場合 |
| 安全性評価 | ローカルLLM + CC レビュー | 既評価データあり |
出力物: 60_AgenticTasks/LLM-Eval/ModelComparison.md に配置決定マトリクスを追記し、UC260505-001 のシナリオ割り当てを更新する
代替フロー
- ローカルLLM が Node4 停止で評価不可の場合: C2 をスキップし、クラウドAI 比較(C1)のみで部分的な配置決定を行う
- 新モデル登場時(例:Claude Opus 4.7 / Gemini 3.0): 本 UC を再実行し、配置マトリクスを更新する
例外フロー
- M21(Mistral-Large-123B)は Node4 OOM 実績あり → C2 評価対象から除外(Node4 復旧・量子化調整後に再評価)
- GPT-4o は API 利用規約によりデータ学習に使用される可能性あり → プライバシーリスクがあるタスク(未公開原稿)では使用しない
備考
- 本 UC の評価結果は UC260505-001(CCオーケストレーション)の分業設計と直結する
- JailBreak 安全性評価(M8/M20/M22 の JSR データ)は C2・C3 の安全性行に流用可能
- 評価スクリプト(
auto_scorer.py)の改善は UC260417-001 の D2 シナリオ(Devin 委託)と連携