マルチモーダルLLM評価パイプライン構築(テキスト×画像×動画の統合ベンチマーク)

🔍 抽出済み | 技術 | 優先度:🟠 高

シリーズ: AI・IT実践シリーズ


目的(ゴール)

テキスト専用LLMの評価に特化したUC260413-005を発展させ、画像理解・動画要約・文書レイアウト解析・グラフ読み取りなど複数モダリティにまたがる評価パイプラインをCBFラボで構築する。ローカルVLM(LLaVA・InternVL等)とクラウドAPI(Claude 3・GPT-4V・Gemini)の精度・速度・コストを横断比較し、「どのタスクにどのモデルを使うべきか」の判断基準を確立する。

アクター

  • 著者(Manabazu)
  • Node3 RX7900XTX(24GB / ROCm)——大型VLMの推論(LLaVA-34B等)
  • Node3 RTX5070Ti(16GB / CUDA)——中型VLM・リランカー(LLaVA-13B / InternVL2-8B等)
  • Node3 RTX4060Ti + RTX3060——画像Embedding・バックグラウンド処理
  • クラウドAPI(Claude 3.5 Sonnet / GPT-4o / Gemini 1.5 Pro)——精度ベースライン
  • 評価データセット(MMBench / MMMU / DocVQA / OCRBench)

検証シナリオ

S1:ローカルVLMの基本動作確認

LLaVA-1.6-34B(ROCm)とInternVL2-8B(CUDA)をNode3で起動し、標準ベンチマーク(MMBench・MMMU)でスコアを計測。クラウドAPIと比較した精度ギャップを数値化。

S2:ドキュメント理解タスク

ObsidianVaultのスクリーンショット・PDF図版・Markdownテーブルを入力とし、「図表の内容を説明せよ」「数値を抽出せよ」タスクでDCVQA精度を評価。出版作業での実用性を直接検証。

S3:分散推論との組み合わせ

大型マルチモーダルモデル(70B級VLM)をNode3の複数GPU分散推論で動作させ、単一GPU(24GB)との精度・速度差を比較。量子化レベル(FP16/INT4)との交差評価。

S4:マルチモーダルRAG統合

UC260506-005(NotebookLMクローン)にビジョン機能を追加し、画像を含むPDFをインデックス化して画像内容も検索対象にするマルチモーダルRAGを実装。テキスト専用RAGとの回答品質比較。

S5:コスト効率最適化

タスク種別(OCR・図表理解・一般VQA・動画要約)ごとに「ローカルVLM vs クラウドAPI」のコスト・精度・速度トレードオフを測定し、CBFラボの最適ルーティングルールを策定。

対応リスク

期待成果

  • UC260413-005(テキストLLMベンチマーク)のマルチモーダル拡張版として、CBFラボの評価能力を視覚・文書理解領域に拡大
  • ローカルVLMでカバーできるタスクを明確化しクラウドAPI依存(R260413-002)をさらに削減
  • スクリーンショット処理・図版キャプション生成が出版ワークフローに直接組み込まれる