MCPサーバー経由でヘテロジニアスGPU推論を自動比較ベンチマークする

🔍 抽出済み | 技術 | 優先度:🟠 高

シリーズ: AI・IT実践シリーズ


目的(ゴール)

Node3の4GPU構成(RTX5070Ti / RTX4060Ti / RTX3060 / RX7900XTX)とNode4の大容量VRAM環境を対象に、同一プロンプトをMCP経由で各GPUへ並列投入し、精度・トークン生成速度・VRAM消費・消費電力を自動収集・比較する。「どのモデル×どのGPUがどのタスクに最適か」をデータドリブンで決定できる評価パイプラインを構築する。

アクター

  • 著者(Manabazu)
  • Node2(MCPサーバー / 推論結果収集オーケストレーター)
  • Node3(RTX5070Ti / RTX4060Ti / RTX3060 / RX7900XTX)——被評価GPU群
  • Node4(RADEON統合96GB VRAM)——大型モデルベースライン
  • Node1(MCPクライアント / Cursor or Claude Code)——ベンチマーク指示エージェント
  • LLMベンチマークスイート(lm-evaluation-harness / カスタムプロンプトセット)

検証シナリオ

S1:単一モデル×全GPU比較

Llama3-8B(FP16)を4GPU同時起動 → 同一プロンプトセットを並列投入 → トークン/秒・TTFT・VRAM使用量を自動集計。

S2:モデルサイズ×量子化マトリクス

7B(FP16/INT4/GGUF-Q4)× 14B(INT4/GGUF-Q4)× 32B(GGUF-Q4)をGPU別に自動実行。量子化レベルによる品質劣化をテストタイムスケーリングと組み合わせて評価。

S3:MicroThinker推論品質評価

MicroThinker(DeepSeek-R1-Distillシリーズ)を対象に、思考トークン数×GPU×量子化の3軸でマトリクス評価。「ローカルRLMの実力」を定量化。

S4:自動レポート生成

MCP経由で収集した全メトリクスをNode1のエージェントが集約し、「タスク別GPU推奨マップ」をMarkdownレポートとして自動生成。

対応リスク

期待成果

  • CBFラボの「タスク別最適GPU配置」決定に必要なデータを確立
  • UC260413-004(ヘテロジニアスGPU推論基盤)・UC260413-005(LLMベンチマーク自動化)の発展版として位置づけ
  • MCP基盤経由による評価自動化でClaude Codeの手動操作を不要化