LFM2.5全デバイスクロスプラットフォーム評価(Node1〜4+スマートフォン横断ベンチマーク)

🔍 抽出済み | 技術 | 優先度:🟠 高

シリーズ: AI・IT実践シリーズ


目的(ゴール)

Liquid AI のLFM2.5-1.2B-Instruct(Q8_0・Q4_K_M)をllama.cpp経由でCBFラボの全デバイスに展開し、Metal / CUDA / ROCm / CPU / NPU / モバイル推論エンジンの横断ベンチマークを実施する。「どのデバイスでどの量子化が最適か」を定量データで回答し、UC260506-001(スマートフォンオフラインAI)とUC260506-015(SSM比較検証)の実機評価データとして活用する。

アクター

  • 著者(Manabazu)
  • Node1 MacBook Air M1(16GB RAM / Metal バックエンド)
  • Node2 EVO-X1(Linux / CPU推論・コントロールプレーン)
  • Node3 RTX5070Ti(16GB VRAM / CUDA Docker)port 8080
  • Node3 RX7900XTX(24GB VRAM / ROCm Docker)port 8081
  • Node4 Surface Pro 11(Intel Core Ultra 7 / NPU + CPU)
  • iPhone 17 Pro・iPhone 16 Pro(Neural Engine)
  • Pixel 8(Tensor G3)・Pixel 6 Pro(Tensor G1)
  • ツール: llama.cpp・Docker Compose Profiles・huggingface-cli

検証シナリオ

S1(完了済み):Node3 Docker Compose分離起動

RTX5070Ti(CUDA)とRX7900XTX(ROCm)を--profile nvidia/amdで分離起動。Q8_0モデルを/data/ai_models/にマウントし、各GPU上での推論速度(tokens/sec)とVRAM使用量を計測。

主な解決済み問題点:

  • ghcr.io/ggerganov/llama.cppghcr.io/ggml-org/llama.cpp への移転
  • AMD環境変数HSA_OVERRIDE_GFX_VERSION: "11.0.0"の必要性
  • HuggingFace Gated ModelのCLI認証(バージョン1.3.2のCLIバイナリ欠落→Pythonスクリプト回避)
  • GGUFファイル名大文字区別(*Q8_0.ggufでフィルタ)

S2:Node1 M1 Mac(Metal)評価

llama.cppをNode1でMetalバックエンドとしてビルド・実行。Q8_0とQ4_K_Mの推論速度・消費電力・生成品質をNode3 CUDAと比較。「M1の電力効率vsハイエンドGPU」の定量評価。

S3:Node4 Surface Pro 11(NPU)評価

Intel Core Ultra 7のNPU(AI Boost 10 TOPS)またはCPU上でllama.cppを動作させ、トークン/秒と消費電力を計測。UC260506-001のエッジAI実用化判断材料とする。

S4:スマートフォン評価(iOS / Android)

  • iOS: llama.cppのiOSビルドまたはLM StudioモバイルアプリでiPhone 17/16 Pro(Neural Engine)上でLFM2.5-Q4_K_Mを動作
  • Android: Pixel 8(Tensor G3)・Pixel 6 Pro(Tensor G1)でGGUFを読み込み、バッテリー消費とトークン速度を測定
  • オフライン動作(機内モード)での完全独立稼働を確認

S5:全デバイス横断比較表の作成

デバイスバックエンド量子化tokens/secVRAM/RAM消費電力品質スコア
Node3 RTX5070TiCUDAQ8_0TBDTBDTBDTBD
Node3 RX7900XTXROCmQ8_0TBDTBDTBDTBD
Node1 M1 MacMetalQ8_0TBDTBDTBDTBD
Node4 Surface Pro 11NPU/CPUQ4_K_MTBDTBDTBDTBD
iPhone 17 ProNeural EngineQ4_K_MTBDTBDTBDTBD
Pixel 8Tensor G3Q4_K_MTBDTBDTBDTBD

対応リスク

期待成果

  • 「LFM2.5はどのデバイスで最もコストパフォーマンスが高いか」への定量回答
  • llama.cppのCBFラボ全ノード展開の実証データ
  • UC260506-001(スマートフォンオフラインAI)の実現可能性を実機で検証
  • SSMアーキテクチャがTransformerより「VRAM効率で有利」な実証(UC260506-015への接続)