LFM2.5全デバイスクロスプラットフォーム評価(Node1〜4+スマートフォン横断ベンチマーク)
🔍 抽出済み | 技術 | 優先度:🟠 高
シリーズ: AI・IT実践シリーズ
目的(ゴール)
Liquid AI のLFM2.5-1.2B-Instruct(Q8_0・Q4_K_M)をllama.cpp経由でCBFラボの全デバイスに展開し、Metal / CUDA / ROCm / CPU / NPU / モバイル推論エンジンの横断ベンチマークを実施する。「どのデバイスでどの量子化が最適か」を定量データで回答し、UC260506-001(スマートフォンオフラインAI)とUC260506-015(SSM比較検証)の実機評価データとして活用する。
アクター
- 著者(Manabazu)
- Node1 MacBook Air M1(16GB RAM / Metal バックエンド)
- Node2 EVO-X1(Linux / CPU推論・コントロールプレーン)
- Node3 RTX5070Ti(16GB VRAM / CUDA Docker)port 8080
- Node3 RX7900XTX(24GB VRAM / ROCm Docker)port 8081
- Node4 Surface Pro 11(Intel Core Ultra 7 / NPU + CPU)
- iPhone 17 Pro・iPhone 16 Pro(Neural Engine)
- Pixel 8(Tensor G3)・Pixel 6 Pro(Tensor G1)
- ツール: llama.cpp・Docker Compose Profiles・huggingface-cli
検証シナリオ
S1(完了済み):Node3 Docker Compose分離起動
RTX5070Ti(CUDA)とRX7900XTX(ROCm)を--profile nvidia/amdで分離起動。Q8_0モデルを/data/ai_models/にマウントし、各GPU上での推論速度(tokens/sec)とVRAM使用量を計測。
主な解決済み問題点:
ghcr.io/ggerganov/llama.cpp→ghcr.io/ggml-org/llama.cppへの移転- AMD環境変数
HSA_OVERRIDE_GFX_VERSION: "11.0.0"の必要性 - HuggingFace Gated ModelのCLI認証(バージョン1.3.2のCLIバイナリ欠落→Pythonスクリプト回避)
- GGUFファイル名大文字区別(
*Q8_0.ggufでフィルタ)
S2:Node1 M1 Mac(Metal)評価
llama.cppをNode1でMetalバックエンドとしてビルド・実行。Q8_0とQ4_K_Mの推論速度・消費電力・生成品質をNode3 CUDAと比較。「M1の電力効率vsハイエンドGPU」の定量評価。
S3:Node4 Surface Pro 11(NPU)評価
Intel Core Ultra 7のNPU(AI Boost 10 TOPS)またはCPU上でllama.cppを動作させ、トークン/秒と消費電力を計測。UC260506-001のエッジAI実用化判断材料とする。
S4:スマートフォン評価(iOS / Android)
- iOS: llama.cppのiOSビルドまたはLM StudioモバイルアプリでiPhone 17/16 Pro(Neural Engine)上でLFM2.5-Q4_K_Mを動作
- Android: Pixel 8(Tensor G3)・Pixel 6 Pro(Tensor G1)でGGUFを読み込み、バッテリー消費とトークン速度を測定
- オフライン動作(機内モード)での完全独立稼働を確認
S5:全デバイス横断比較表の作成
| デバイス | バックエンド | 量子化 | tokens/sec | VRAM/RAM | 消費電力 | 品質スコア |
|---|---|---|---|---|---|---|
| Node3 RTX5070Ti | CUDA | Q8_0 | TBD | TBD | TBD | TBD |
| Node3 RX7900XTX | ROCm | Q8_0 | TBD | TBD | TBD | TBD |
| Node1 M1 Mac | Metal | Q8_0 | TBD | TBD | TBD | TBD |
| Node4 Surface Pro 11 | NPU/CPU | Q4_K_M | TBD | TBD | TBD | TBD |
| iPhone 17 Pro | Neural Engine | Q4_K_M | TBD | TBD | TBD | TBD |
| Pixel 8 | Tensor G3 | Q4_K_M | TBD | TBD | TBD | TBD |
対応リスク
期待成果
- 「LFM2.5はどのデバイスで最もコストパフォーマンスが高いか」への定量回答
- llama.cppのCBFラボ全ノード展開の実証データ
- UC260506-001(スマートフォンオフラインAI)の実現可能性を実機で検証
- SSMアーキテクチャがTransformerより「VRAM効率で有利」な実証(UC260506-015への接続)