MCPサーバー経由でヘテロジニアスGPU推論を自動比較ベンチマークする

🔍 抽出済み｜技術｜優先度：🟠 高

シリーズ: AI・IT実践シリーズ

目的（ゴール）

Node3の4GPU構成（RTX5070Ti / RTX4060Ti / RTX3060 / RX7900XTX）とNode4の大容量VRAM環境を対象に、同一プロンプトをMCP経由で各GPUへ並列投入し、精度・トークン生成速度・VRAM消費・消費電力を自動収集・比較する。「どのモデル×どのGPUがどのタスクに最適か」をデータドリブンで決定できる評価パイプラインを構築する。

アクター

著者（Manabazu）
Node2（MCPサーバー / 推論結果収集オーケストレーター）
Node3（RTX5070Ti / RTX4060Ti / RTX3060 / RX7900XTX）——被評価GPU群
Node4（RADEON統合96GB VRAM）——大型モデルベースライン
Node1（MCPクライアント / Cursor or Claude Code）——ベンチマーク指示エージェント
LLMベンチマークスイート（lm-evaluation-harness / カスタムプロンプトセット）

検証シナリオ

S1：単一モデル×全GPU比較

Llama3-8B（FP16）を4GPU同時起動 → 同一プロンプトセットを並列投入 → トークン/秒・TTFT・VRAM使用量を自動集計。

S2：モデルサイズ×量子化マトリクス

7B（FP16/INT4/GGUF-Q4）× 14B（INT4/GGUF-Q4）× 32B（GGUF-Q4）をGPU別に自動実行。量子化レベルによる品質劣化をテストタイムスケーリングと組み合わせて評価。

S3：MicroThinker推論品質評価

MicroThinker（DeepSeek-R1-Distillシリーズ）を対象に、思考トークン数×GPU×量子化の3軸でマトリクス評価。「ローカルRLMの実力」を定量化。

S4：自動レポート生成

MCP経由で収集した全メトリクスをNode1のエージェントが集約し、「タスク別GPU推奨マップ」をMarkdownレポートとして自動生成。

対応リスク

期待成果

CBFラボの「タスク別最適GPU配置」決定に必要なデータを確立
UC260413-004（ヘテロジニアスGPU推論基盤）・UC260413-005（LLMベンチマーク自動化）の発展版として位置づけ
MCP基盤経由による評価自動化でClaude Codeの手動操作を不要化

シンギュラリティ志向ライフ

MCPサーバー経由でヘテロジニアスGPU推論を自動比較ベンチマークする

MCPサーバー経由でヘテロジニアスGPU推論を自動比較ベンチマークする

目的（ゴール）

アクター

検証シナリオ

S1：単一モデル×全GPU比較

S2：モデルサイズ×量子化マトリクス

S3：MicroThinker推論品質評価

S4：自動レポート生成

対応リスク

期待成果

目次

バックリンク