Mamba/SSM vs Transformer 長文脈処理比較検証(O(N)アーキテクチャの推論速度・精度測定)

🔍 抽出済み | 技術 | 優先度:🟠 高

シリーズ: AI・IT実践シリーズ


目的(ゴール)

Transformerが持つO(N²)の計算量制約に対して、Mamba(SSM)・RWKV等のO(N)線形アーキテクチャが「長文脈処理・時系列処理」で実際にどの程度の速度・精度差を示すかをNode3のCUDA/ROCm環境で定量比較する。「ポストTransformer」の実用性を検証し、UC260506-016(AGI統合設計)の部品評価として機能させる。

アクター

  • 著者(Manabazu)
  • Node3 RTX5070Ti(16GB / CUDA)——Mamba/RWKV推論・比較実験
  • Node3 RX7900XTX(24GB / ROCm)——大型モデルでの長文脈テスト
  • 比較対象:Transformer系モデル(Llama-3-8B等)vs Mamba-2 / Jamba
  • 評価データ:長文書要約・時系列センサーデータ・超長文コンテキスト推論

検証シナリオ

S1:コンテキスト長スケーリング実験

4k / 32k / 128k / 512k / 1Mトークンの各コンテキスト長で推論速度(トークン/秒)とVRAM使用量を計測。TransformerのO(N²)増加曲線とMambaのO(N)線形曲線を可視化。

S2:時系列タスクでの精度比較

株価予測・センサーデータ異常検知・長文書内の「N時間前の情報」参照タスクで精度を比較。SSMが「記憶」的な処理で有利なタスクを特定。

S3:Jamba(SSM+Transformer混合)の評価

純粋なSSMとTransformerの弱点を相互補完する混合アーキテクチャJambaをNode3で評価。「どの処理をSSMに任せ、どこをTransformerで補うか」の最適分業点を探索。

S4:Liquid Neural Network(LNN)比較

時間連続ODEベースのLiquid Neural NetworkをNode4 NPU上で動作させ、Mamba(CUDA)との消費電力対推論速度比を測定。エッジ推論における次世代アーキテクチャの実力を評価。

S5:ROCm環境での動作確認

RX7900XTX(ROCm)でMambaが安定動作するか確認。CUDAのみ対応の実装とROCm移植の差異をログ化し、UC260506-006のDocker分離基盤との整合性を検証。

対応リスク

期待成果

  • 「SSMはTransformerを代替できるか」を定量データで回答
  • UC260413-005(LLMベンチマーク)のアーキテクチャ多様化版として位置づけ
  • UC260506-016(AGI統合設計)の記憶モジュール選定根拠を確立