Mamba/SSM vs Transformer 長文脈処理比較検証(O(N)アーキテクチャの推論速度・精度測定)
🔍 抽出済み | 技術 | 優先度:🟠 高
シリーズ: AI・IT実践シリーズ
目的(ゴール)
Transformerが持つO(N²)の計算量制約に対して、Mamba(SSM)・RWKV等のO(N)線形アーキテクチャが「長文脈処理・時系列処理」で実際にどの程度の速度・精度差を示すかをNode3のCUDA/ROCm環境で定量比較する。「ポストTransformer」の実用性を検証し、UC260506-016(AGI統合設計)の部品評価として機能させる。
アクター
- 著者(Manabazu)
- Node3 RTX5070Ti(16GB / CUDA)——Mamba/RWKV推論・比較実験
- Node3 RX7900XTX(24GB / ROCm)——大型モデルでの長文脈テスト
- 比較対象:Transformer系モデル(Llama-3-8B等)vs Mamba-2 / Jamba
- 評価データ:長文書要約・時系列センサーデータ・超長文コンテキスト推論
検証シナリオ
S1:コンテキスト長スケーリング実験
4k / 32k / 128k / 512k / 1Mトークンの各コンテキスト長で推論速度(トークン/秒)とVRAM使用量を計測。TransformerのO(N²)増加曲線とMambaのO(N)線形曲線を可視化。
S2:時系列タスクでの精度比較
株価予測・センサーデータ異常検知・長文書内の「N時間前の情報」参照タスクで精度を比較。SSMが「記憶」的な処理で有利なタスクを特定。
S3:Jamba(SSM+Transformer混合)の評価
純粋なSSMとTransformerの弱点を相互補完する混合アーキテクチャJambaをNode3で評価。「どの処理をSSMに任せ、どこをTransformerで補うか」の最適分業点を探索。
S4:Liquid Neural Network(LNN)比較
時間連続ODEベースのLiquid Neural NetworkをNode4 NPU上で動作させ、Mamba(CUDA)との消費電力対推論速度比を測定。エッジ推論における次世代アーキテクチャの実力を評価。
S5:ROCm環境での動作確認
RX7900XTX(ROCm)でMambaが安定動作するか確認。CUDAのみ対応の実装とROCm移植の差異をログ化し、UC260506-006のDocker分離基盤との整合性を検証。
対応リスク
期待成果
- 「SSMはTransformerを代替できるか」を定量データで回答
- UC260413-005(LLMベンチマーク)のアーキテクチャ多様化版として位置づけ
- UC260506-016(AGI統合設計)の記憶モジュール選定根拠を確立