MCPサーバー経由でヘテロジニアスGPU推論を自動比較ベンチマークする
🔍 抽出済み | 技術 | 優先度:🟠 高
シリーズ: AI・IT実践シリーズ
目的(ゴール)
Node3の4GPU構成(RTX5070Ti / RTX4060Ti / RTX3060 / RX7900XTX)とNode4の大容量VRAM環境を対象に、同一プロンプトをMCP経由で各GPUへ並列投入し、精度・トークン生成速度・VRAM消費・消費電力を自動収集・比較する。「どのモデル×どのGPUがどのタスクに最適か」をデータドリブンで決定できる評価パイプラインを構築する。
アクター
- 著者(Manabazu)
- Node2(MCPサーバー / 推論結果収集オーケストレーター)
- Node3(RTX5070Ti / RTX4060Ti / RTX3060 / RX7900XTX)——被評価GPU群
- Node4(RADEON統合96GB VRAM)——大型モデルベースライン
- Node1(MCPクライアント / Cursor or Claude Code)——ベンチマーク指示エージェント
- LLMベンチマークスイート(lm-evaluation-harness / カスタムプロンプトセット)
検証シナリオ
S1:単一モデル×全GPU比較
Llama3-8B(FP16)を4GPU同時起動 → 同一プロンプトセットを並列投入 → トークン/秒・TTFT・VRAM使用量を自動集計。
S2:モデルサイズ×量子化マトリクス
7B(FP16/INT4/GGUF-Q4)× 14B(INT4/GGUF-Q4)× 32B(GGUF-Q4)をGPU別に自動実行。量子化レベルによる品質劣化をテストタイムスケーリングと組み合わせて評価。
S3:MicroThinker推論品質評価
MicroThinker(DeepSeek-R1-Distillシリーズ)を対象に、思考トークン数×GPU×量子化の3軸でマトリクス評価。「ローカルRLMの実力」を定量化。
S4:自動レポート生成
MCP経由で収集した全メトリクスをNode1のエージェントが集約し、「タスク別GPU推奨マップ」をMarkdownレポートとして自動生成。
対応リスク
期待成果
- CBFラボの「タスク別最適GPU配置」決定に必要なデータを確立
- UC260413-004(ヘテロジニアスGPU推論基盤)・UC260413-005(LLMベンチマーク自動化)の発展版として位置づけ
- MCP基盤経由による評価自動化でClaude Codeの手動操作を不要化