LFM2.5全デバイスクロスプラットフォーム評価（Node1〜4＋スマートフォン横断ベンチマーク）

🔍 抽出済み｜技術｜優先度：🟠 高

シリーズ: AI・IT実践シリーズ

目的（ゴール）

Liquid AI のLFM2.5-1.2B-Instruct（Q8_0・Q4_K_M）をllama.cpp経由でCBFラボの全デバイスに展開し、Metal / CUDA / ROCm / CPU / NPU / モバイル推論エンジンの横断ベンチマークを実施する。「どのデバイスでどの量子化が最適か」を定量データで回答し、UC260506-001（スマートフォンオフラインAI）とUC260506-015（SSM比較検証）の実機評価データとして活用する。

アクター

著者（Manabazu）
Node1 MacBook Air M1（16GB RAM / Metal バックエンド）
Node2 EVO-X1（Linux / CPU推論・コントロールプレーン）
Node3 RTX5070Ti（16GB VRAM / CUDA Docker）port 8080
Node3 RX7900XTX（24GB VRAM / ROCm Docker）port 8081
Node4 Surface Pro 11（Intel Core Ultra 7 / NPU + CPU）
iPhone 17 Pro・iPhone 16 Pro（Neural Engine）
Pixel 8（Tensor G3）・Pixel 6 Pro（Tensor G1）
ツール: llama.cpp・Docker Compose Profiles・huggingface-cli

検証シナリオ

S1（完了済み）：Node3 Docker Compose分離起動

RTX5070Ti（CUDA）とRX7900XTX（ROCm）を--profile nvidia/amdで分離起動。Q8_0モデルを/data/ai_models/にマウントし、各GPU上での推論速度（tokens/sec）とVRAM使用量を計測。

主な解決済み問題点：

ghcr.io/ggerganov/llama.cpp → ghcr.io/ggml-org/llama.cpp への移転
AMD環境変数HSA_OVERRIDE_GFX_VERSION: "11.0.0"の必要性
HuggingFace Gated ModelのCLI認証（バージョン1.3.2のCLIバイナリ欠落→Pythonスクリプト回避）
GGUFファイル名大文字区別（*Q8_0.ggufでフィルタ）

S2：Node1 M1 Mac（Metal）評価

llama.cppをNode1でMetalバックエンドとしてビルド・実行。Q8_0とQ4_K_Mの推論速度・消費電力・生成品質をNode3 CUDAと比較。「M1の電力効率vsハイエンドGPU」の定量評価。

S3：Node4 Surface Pro 11（NPU）評価

Intel Core Ultra 7のNPU（AI Boost 10 TOPS）またはCPU上でllama.cppを動作させ、トークン/秒と消費電力を計測。UC260506-001のエッジAI実用化判断材料とする。

S4：スマートフォン評価（iOS / Android）

iOS: llama.cppのiOSビルドまたはLM StudioモバイルアプリでiPhone 17/16 Pro（Neural Engine）上でLFM2.5-Q4_K_Mを動作
Android: Pixel 8（Tensor G3）・Pixel 6 Pro（Tensor G1）でGGUFを読み込み、バッテリー消費とトークン速度を測定
オフライン動作（機内モード）での完全独立稼働を確認

S5：全デバイス横断比較表の作成

デバイス	バックエンド	量子化	tokens/sec	VRAM/RAM	消費電力	品質スコア
Node3 RTX5070Ti	CUDA	Q8_0	TBD	TBD	TBD	TBD
Node3 RX7900XTX	ROCm	Q8_0	TBD	TBD	TBD	TBD
Node1 M1 Mac	Metal	Q8_0	TBD	TBD	TBD	TBD
Node4 Surface Pro 11	NPU/CPU	Q4_K_M	TBD	TBD	TBD	TBD
iPhone 17 Pro	Neural Engine	Q4_K_M	TBD	TBD	TBD	TBD
Pixel 8	Tensor G3	Q4_K_M	TBD	TBD	TBD	TBD

対応リスク

期待成果

「LFM2.5はどのデバイスで最もコストパフォーマンスが高いか」への定量回答
llama.cppのCBFラボ全ノード展開の実証データ
UC260506-001（スマートフォンオフラインAI）の実現可能性を実機で検証
SSMアーキテクチャがTransformerより「VRAM効率で有利」な実証（UC260506-015への接続）

シンギュラリティ志向ライフ

LFM2.5全デバイスクロスプラットフォーム評価（Node1〜4＋スマートフォン横断ベンチマーク）

LFM2.5全デバイスクロスプラットフォーム評価（Node1〜4＋スマートフォン横断ベンチマーク）

目的（ゴール）

アクター

検証シナリオ

S1（完了済み）：Node3 Docker Compose分離起動

S2：Node1 M1 Mac（Metal）評価

S3：Node4 Surface Pro 11（NPU）評価

S4：スマートフォン評価（iOS / Android）

S5：全デバイス横断比較表の作成

対応リスク

期待成果

目次

バックリンク