クラウドAI・ローカルLLM 個別比較評価(タスク別最適モデル選択と配置決定フレームワーク)

🔍 抽出済み | 技術 | 優先度:🔴 最優先

シリーズ: ゴールファースト・テック


目的(ゴール)

クラウドAI(Claude / Gemini / GPT-4o)とローカルLLM(Qwen / Gemma / Mistral 系)を、出版・エージェント・評価の各タスクカテゴリで個別に比較し、「どのタスクをどのモデルに割り当てるか」の意思決定マトリクスを確立する。比較結果は UC260505-001(CCオーケストレーション)の分業設計と UC260417-001(CC完全代替)の移行判断に直接フィードバックする。

アクター

  • 著者(Manabazu)
  • クラウドAI 評価対象
    • Claude Sonnet 4.6 / Opus 4.7(Anthropic API)
    • Gemini 2.5 Pro / 2.0 Flash(Google AI API)
    • GPT-4o(OpenAI API)
  • ローカルLLM 評価対象
    • M8: Qwen3.5-122B-A10B(Node4 LiteLLM: qwen35-122b-a10b
    • M20: Gemma4-31B(Node4 LiteLLM: gemma4-31b
    • M22: Qwen3.6-35B-A3B(Node4 LiteLLM: qwen36-35b-a3b
    • M23: Qwen3.6-27B(Node4 LiteLLM: qwen36-27b
  • 評価スクリプト群(auto_scorer.py / apply_scores.py
  • Claude Code(評価基準策定・結果レビュー・配置決定)

開始条件(起動トリガー)

新しいモデルが登場した時、または UC260505-001 の分業配置プランを見直す必要が生じた時。初回は本 UC 抽出後すみやかに C1〜C4 を順次実行する。

事前条件

  • Node4 LiteLLM(:4000)が稼働し、対象ローカルLLM が登録済み
  • 各クラウドAI の API キーが取得済み(環境変数に設定済み)
  • 比較タスクセット(後述の評価タスクカテゴリ)が定義済み

事後条件

  • 各モデルの評価スコアが 60_AgenticTasks/LLM-Eval/ModelComparison.md に記録される
  • 「タスク別推奨モデル」配置マトリクスが確定し、UC260505-001 のシナリオ割り当てが更新される
  • 新モデル登場時の再評価プロセスが定型化される

評価軸

評価軸指標計測方法
品質1〜5 点(CC によるルーブリック採点)同一プロンプトを各モデルで実行し CC が採点
処理速度秒/タスク または tokens/sectime コマンドまたはスクリプト計測
コスト円/1K トークン(入力+出力換算)各 API の公開料金 / ローカルは電気代換算
コンテキスト長最大入力トークン数公式仕様値
プライバシーローカル / クラウド(利用規約依存)定性評価
可用性ネットワーク依存度定性評価(オフライン可否)
特殊能力マルチモーダル / ツール使用 / コード実行機能フラグ(有/無)

シナリオリスト

シナリオ比較軸主な評価タスク
C1クラウドAI 同士の比較出版タスクでのコスト×品質トレードオフ
C2ローカルLLM 同士の比較推論速度・品質・VRAM 効率の比較
C3クラウドAI vs ローカルLLM のクロス比較同一タスクでの直接対決・代替可否判定
C4月次コスト試算と配置決定マトリクスUC260505-001 分業設計へのフィードバック

シナリオ記述

C1: クラウドAI 同士の比較(Claude / Gemini / GPT-4o)

目的: 出版・Vault タスクにおいてどのクラウドAI が最もコスト対効果が高いかを定量化する
評価タスクカテゴリ:

カテゴリタスク例重視軸
テキスト生成Lab Log → 出版メモ変換品質・文体統一
長文要約原稿全章 → エグゼクティブサマリー品質・コンテキスト長
分類CBF 6ビット分類付与精度・コスト
コーディングvault_worker.py にコマンド追加品質・速度
マルチモーダルスクリーンショット → Markdown 変換Gemini / GPT-4o Vision vs Claude

手順:

  1. CC が各タスクのプロンプトと期待出力基準を定義する
  2. 同一プロンプトを Claude Sonnet 4.6 / Gemini 2.5 Pro / GPT-4o に送信し出力を収集する
  3. CC が各出力を 1〜5 点で採点し、処理時間・トークン数・コストを記録する
  4. 結果を 60_AgenticTasks/LLM-Eval/ModelComparison.md の C1 セクションに格納する

判断基準(推奨モデル選定):

  • 品質差が 0.5 点以内 → コストが安いモデルを選択
  • マルチモーダルが必須 → Gemini 2.0 Flash(速度重視)または Gemini 2.5 Pro(品質重視)
  • 長文コンテキスト(50K token 超)→ Gemini 2.5 Pro を優先

C2: ローカルLLM 同士の比較(Qwen / Gemma / Mistral 系)

目的: Node4 で運用中のローカルモデル群から、タスク別に最適なモデルを特定する
既存データの活用: JailBreak 安全性評価(M8/M20/M22、全 JSR=2.6%)の採点済みデータを品質評価の参照値として流用する

評価項目:

モデルVRAM/RAM推論速度目安得意領域
M8 Qwen3.5-122B-A10B〜60GB(MoE)中速汎用・日本語品質
M20 Gemma4-31B〜20GB高速軽量・バランス型
M22 Qwen3.6-35B-A3B〜20GB(MoE)高速汎用・コスト最小
M23 Qwen3.6-27B〜17GB高速軽量・日本語対応

手順:

  1. 同一タスクセット(Lab Log 変換・AtomicNote 生成・CBF 分類)を全モデルに送信する
  2. CC が品質採点し、処理速度(tokens/sec)を計測する
  3. VRAM 使用量・並列処理可否(複数リクエスト同時実行)を記録する
  4. 結果を 60_AgenticTasks/LLM-Eval/ModelComparison.md の C2 セクションに格納する

判断基準:

  • 品質優先(原稿ドラフト)→ M8(最大モデル)
  • 速度優先(大量バッチ分類)→ M22 または M23
  • バランス(AtomicNote 生成)→ M20 または M22

C3: クラウドAI vs ローカルLLM クロス比較

目的: 各タスクカテゴリでクラウドAI とローカルLLM の品質差を定量化し、「ローカルで代替可能か」の判定基準を確立する
代替可否の閾値: ローカルLLM の品質スコアがクラウドAI の 80% 以上であれば代替可と判定

比較マトリクス(評価後に埋める):

タスクClaude Sonnet 4.6Gemini 2.5 ProM8M20M22代替可否
Lab Log 変換
AtomicNote 生成
章ドラフト生成
CBF 分類
コーディング
安全性(JailBreak)3.8/53.7/53.9/5✅(既評価)

手順:

  1. C1・C2 の評価データを横断比較する
  2. タスクごとに「クラウドベスト vs ローカルベスト」の品質差を算出する
  3. 80% 閾値で代替可否を判定し、マトリクスを完成させる
  4. 代替不可タスクはクラウド専用として UC260505-001 の分業設計に反映する

C4: 月次コスト試算と配置決定マトリクス

目的: C1〜C3 の評価結果をもとに、月次の実際のタスク量から総コストを試算し、最適な配置プランを UC260505-001 にフィードバックする

コスト計算式(クラウドAI):

月次コスト = Σ (タスク数 × 平均トークン数 × 単価/1K token)

コスト計算式(ローカルLLM):

月次コスト ≒ 電気代(Node4: 消費電力 × 稼働時間 × 電気単価)+ ハード減価償却

配置決定ルール(C3 結果から導出):

タスクカテゴリ推奨配置理由
大容量コンテキスト(50K+)Geminiローカル・CC はコンテキスト不足
マルチモーダルGemini VisionローカルLLM は非対応
定型テキスト生成(品質80%以上)ローカルLLMコストゼロ・プライバシー優位
コーディング(複雑)CC または Devin品質差が大きい場合
安全性評価ローカルLLM + CC レビュー既評価データあり

出力物: 60_AgenticTasks/LLM-Eval/ModelComparison.md に配置決定マトリクスを追記し、UC260505-001 のシナリオ割り当てを更新する


代替フロー

  • ローカルLLM が Node4 停止で評価不可の場合: C2 をスキップし、クラウドAI 比較(C1)のみで部分的な配置決定を行う
  • 新モデル登場時(例:Claude Opus 4.7 / Gemini 3.0): 本 UC を再実行し、配置マトリクスを更新する

例外フロー

  • M21(Mistral-Large-123B)は Node4 OOM 実績あり → C2 評価対象から除外(Node4 復旧・量子化調整後に再評価)
  • GPT-4o は API 利用規約によりデータ学習に使用される可能性あり → プライバシーリスクがあるタスク(未公開原稿)では使用しない

備考

  • 本 UC の評価結果は UC260505-001(CCオーケストレーション)の分業設計と直結する
  • JailBreak 安全性評価(M8/M20/M22 の JSR データ)は C2・C3 の安全性行に流用可能
  • 評価スクリプト(auto_scorer.py)の改善は UC260417-001 の D2 シナリオ(Devin 委託)と連携

対応リスク

ユースケース一覧に戻る