クラウドAI・ローカルLLM 個別比較評価（タスク別最適モデル選択と配置決定フレームワーク）

🔍 抽出済み｜技術｜優先度：🔴 最優先

シリーズ: ゴールファースト・テック

目的（ゴール）

クラウドAI（Claude / Gemini / GPT-4o）とローカルLLM（Qwen / Gemma / Mistral 系）を、出版・エージェント・評価の各タスクカテゴリで個別に比較し、「どのタスクをどのモデルに割り当てるか」の意思決定マトリクスを確立する。比較結果は UC260505-001（CCオーケストレーション）の分業設計と UC260417-001（CC完全代替）の移行判断に直接フィードバックする。

アクター

著者（Manabazu）
クラウドAI 評価対象
- Claude Sonnet 4.6 / Opus 4.7（Anthropic API）
- Gemini 2.5 Pro / 2.0 Flash（Google AI API）
- GPT-4o（OpenAI API）
ローカルLLM 評価対象
- M8: Qwen3.5-122B-A10B（Node4 LiteLLM: qwen35-122b-a10b）
- M20: Gemma4-31B（Node4 LiteLLM: gemma4-31b）
- M22: Qwen3.6-35B-A3B（Node4 LiteLLM: qwen36-35b-a3b）
- M23: Qwen3.6-27B（Node4 LiteLLM: qwen36-27b）
評価スクリプト群（auto_scorer.py / apply_scores.py）
Claude Code（評価基準策定・結果レビュー・配置決定）

開始条件（起動トリガー）

新しいモデルが登場した時、または UC260505-001 の分業配置プランを見直す必要が生じた時。初回は本 UC 抽出後すみやかに C1〜C4 を順次実行する。

事前条件

Node4 LiteLLM（:4000）が稼働し、対象ローカルLLM が登録済み
各クラウドAI の API キーが取得済み（環境変数に設定済み）
比較タスクセット（後述の評価タスクカテゴリ）が定義済み

事後条件

各モデルの評価スコアが 60_AgenticTasks/LLM-Eval/ModelComparison.md に記録される
「タスク別推奨モデル」配置マトリクスが確定し、UC260505-001 のシナリオ割り当てが更新される
新モデル登場時の再評価プロセスが定型化される

評価軸

評価軸	指標	計測方法
品質	1〜5 点（CC によるルーブリック採点）	同一プロンプトを各モデルで実行し CC が採点
処理速度	秒/タスクまたは tokens/sec	time コマンドまたはスクリプト計測
コスト	円/1K トークン（入力+出力換算）	各 API の公開料金 / ローカルは電気代換算
コンテキスト長	最大入力トークン数	公式仕様値
プライバシー	ローカル / クラウド（利用規約依存）	定性評価
可用性	ネットワーク依存度	定性評価（オフライン可否）
特殊能力	マルチモーダル / ツール使用 / コード実行	機能フラグ（有/無）

シナリオリスト

シナリオ	比較軸	主な評価タスク
C1	クラウドAI 同士の比較	出版タスクでのコスト×品質トレードオフ
C2	ローカルLLM 同士の比較	推論速度・品質・VRAM 効率の比較
C3	クラウドAI vs ローカルLLM のクロス比較	同一タスクでの直接対決・代替可否判定
C4	月次コスト試算と配置決定マトリクス	UC260505-001 分業設計へのフィードバック

シナリオ記述

C1: クラウドAI 同士の比較（Claude / Gemini / GPT-4o）

目的: 出版・Vault タスクにおいてどのクラウドAI が最もコスト対効果が高いかを定量化する
評価タスクカテゴリ:

カテゴリ	タスク例	重視軸
テキスト生成	Lab Log → 出版メモ変換	品質・文体統一
長文要約	原稿全章 → エグゼクティブサマリー	品質・コンテキスト長
分類	CBF 6ビット分類付与	精度・コスト
コーディング	vault_worker.py にコマンド追加	品質・速度
マルチモーダル	スクリーンショット → Markdown 変換	Gemini / GPT-4o Vision vs Claude

手順:

CC が各タスクのプロンプトと期待出力基準を定義する
同一プロンプトを Claude Sonnet 4.6 / Gemini 2.5 Pro / GPT-4o に送信し出力を収集する
CC が各出力を 1〜5 点で採点し、処理時間・トークン数・コストを記録する
結果を 60_AgenticTasks/LLM-Eval/ModelComparison.md の C1 セクションに格納する

判断基準（推奨モデル選定）:

品質差が 0.5 点以内 → コストが安いモデルを選択
マルチモーダルが必須 → Gemini 2.0 Flash（速度重視）または Gemini 2.5 Pro（品質重視）
長文コンテキスト（50K token 超）→ Gemini 2.5 Pro を優先

C2: ローカルLLM 同士の比較（Qwen / Gemma / Mistral 系）

目的: Node4 で運用中のローカルモデル群から、タスク別に最適なモデルを特定する
既存データの活用: JailBreak 安全性評価（M8/M20/M22、全 JSR=2.6%）の採点済みデータを品質評価の参照値として流用する

評価項目:

モデル	VRAM/RAM	推論速度目安	得意領域
M8 Qwen3.5-122B-A10B	〜60GB（MoE）	中速	汎用・日本語品質
M20 Gemma4-31B	〜20GB	高速	軽量・バランス型
M22 Qwen3.6-35B-A3B	〜20GB（MoE）	高速	汎用・コスト最小
M23 Qwen3.6-27B	〜17GB	高速	軽量・日本語対応

手順:

同一タスクセット（Lab Log 変換・AtomicNote 生成・CBF 分類）を全モデルに送信する
CC が品質採点し、処理速度（tokens/sec）を計測する
VRAM 使用量・並列処理可否（複数リクエスト同時実行）を記録する
結果を 60_AgenticTasks/LLM-Eval/ModelComparison.md の C2 セクションに格納する

判断基準:

品質優先（原稿ドラフト）→ M8（最大モデル）
速度優先（大量バッチ分類）→ M22 または M23
バランス（AtomicNote 生成）→ M20 または M22

C3: クラウドAI vs ローカルLLM クロス比較

目的: 各タスクカテゴリでクラウドAI とローカルLLM の品質差を定量化し、「ローカルで代替可能か」の判定基準を確立する
代替可否の閾値: ローカルLLM の品質スコアがクラウドAI の 80% 以上であれば代替可と判定

比較マトリクス（評価後に埋める）:

タスク	Claude Sonnet 4.6	Gemini 2.5 Pro	M8	M20	M22	代替可否
Lab Log 変換	—	—	—	—	—	—
AtomicNote 生成	—	—	—	—	—	—
章ドラフト生成	—	—	—	—	—	—
CBF 分類	—	—	—	—	—	—
コーディング	—	—	—	—	—	—
安全性（JailBreak）	—	—	3.8/5	3.7/5	3.9/5	✅（既評価）

手順:

C1・C2 の評価データを横断比較する
タスクごとに「クラウドベスト vs ローカルベスト」の品質差を算出する
80% 閾値で代替可否を判定し、マトリクスを完成させる
代替不可タスクはクラウド専用として UC260505-001 の分業設計に反映する

C4: 月次コスト試算と配置決定マトリクス

目的: C1〜C3 の評価結果をもとに、月次の実際のタスク量から総コストを試算し、最適な配置プランを UC260505-001 にフィードバックする

コスト計算式（クラウドAI）:

月次コスト = Σ (タスク数 × 平均トークン数 × 単価/1K token)

コスト計算式（ローカルLLM）:

月次コスト ≒ 電気代（Node4: 消費電力 × 稼働時間 × 電気単価）+ ハード減価償却

配置決定ルール（C3 結果から導出）:

タスクカテゴリ	推奨配置	理由
大容量コンテキスト（50K+）	Gemini	ローカル・CC はコンテキスト不足
マルチモーダル	Gemini Vision	ローカルLLM は非対応
定型テキスト生成（品質80%以上）	ローカルLLM	コストゼロ・プライバシー優位
コーディング（複雑）	CC または Devin	品質差が大きい場合
安全性評価	ローカルLLM + CC レビュー	既評価データあり

出力物: 60_AgenticTasks/LLM-Eval/ModelComparison.md に配置決定マトリクスを追記し、UC260505-001 のシナリオ割り当てを更新する

代替フロー

ローカルLLM が Node4 停止で評価不可の場合: C2 をスキップし、クラウドAI 比較（C1）のみで部分的な配置決定を行う
新モデル登場時（例：Claude Opus 4.7 / Gemini 3.0）: 本 UC を再実行し、配置マトリクスを更新する

例外フロー

M21（Mistral-Large-123B）は Node4 OOM 実績あり → C2 評価対象から除外（Node4 復旧・量子化調整後に再評価）
GPT-4o は API 利用規約によりデータ学習に使用される可能性あり → プライバシーリスクがあるタスク（未公開原稿）では使用しない

備考

本 UC の評価結果は UC260505-001（CCオーケストレーション）の分業設計と直結する
JailBreak 安全性評価（M8/M20/M22 の JSR データ）は C2・C3 の安全性行に流用可能
評価スクリプト（auto_scorer.py）の改善は UC260417-001 の D2 シナリオ（Devin 委託）と連携

対応リスク

← ユースケース一覧に戻る

シンギュラリティ志向ライフ

クラウドAI・ローカルLLM 個別比較評価（タスク別最適モデル選択と配置決定フレームワーク）

クラウドAI・ローカルLLM 個別比較評価（タスク別最適モデル選択と配置決定フレームワーク）

目的（ゴール）

アクター

開始条件（起動トリガー）

事前条件

事後条件

評価軸

シナリオリスト

シナリオ記述

C1: クラウドAI 同士の比較（Claude / Gemini / GPT-4o）

C2: ローカルLLM 同士の比較（Qwen / Gemma / Mistral 系）

C3: クラウドAI vs ローカルLLM クロス比較

C4: 月次コスト試算と配置決定マトリクス

代替フロー

例外フロー

備考

対応リスク

目次

バックリンク