メカニスティック解釈可能性実験基盤(回路分析・SAE・活性化解析をCBFラボで実施)

🔍 抽出済み | 技術 | 優先度:🟠 高

シリーズ: AI・IT実践シリーズ


目的(ゴール)

LLMの内部動作を「回路(Circuit)」レベルでリバースエンジニアリングするメカニスティック解釈可能性(MI)の実験基盤をCBFラボに構築する。活性化パッチング・疎な自己符号化器(SAE)・Logit Lensの3手法を組み合わせ、「モデルがなぜその答えを出したか」を因果的に特定できる研究環境を確立する。UC260413-007(AI安全性実装)の「なぜ安全なのか」を実証する法医学的基盤として機能させる。

アクター

  • 著者(Manabazu)
  • Node3 RTX5070Ti(16GB / CUDA)——TransformerLensによる活性化パッチング・回路トレーシング
  • Node3 RX7900XTX(24GB / ROCm)——SAE学習・大規模活性化ログ解析
  • Node2(EVO-X1)——解析結果の可視化・オーケストレーション(Streamlit)
  • TransformerLens / SAELens / baukit——主要MIライブラリ
  • 解析対象モデル(GPT-2・Llama-3-8B・DeepSeek-R1-Distill-14B等)

検証シナリオ

S1:回路分析(Circuit Analysis)基盤構築

TransformerLensを使いNode3 RTX5070TiでGPT-2の「間接目的語識別タスク(IOI)」回路をトレース。既知の論文結果を再現し、CBFラボでのMI実験環境の動作を確認。

S2:SAEによる特徴量抽出

RX7900XTX(24GB)上でSAELensを使いLlama-3-8Bの中間層を分解。「数学推論」「コード」「感情」に対応する特徴量を特定し、活性化パターンを可視化。

S3:Logit Lens で思考プロセスの時系列追跡

モデルが多段推論する際、各層で「何を考えているか」をLogit Lensで時系列追跡。RLMの思考トークン(<thought>内)での層別活性化変化をChain of Thoughtとの相関で検証。

S4:CoT忠実度スコアリング

モデルがCoTで「AだからBである」と述べた際、Node3でSAEを用いて「A」の特徴量が内部で活性化しているかを検証。不誠実なCoT(Unfaithful CoT)の検出パイプラインを構築。

S5:クロス量子化ドリフト解析

FP16とINT4量子化モデルの同一プロンプトに対する内部活性化の差異をKLダイバージェンスで計測。量子化が「思考の質」に与える影響をMIレベルで定量化。

対応リスク

期待成果

  • 「モデルがなぜ安全か・なぜ失敗するか」をブラックボックスから解放し、因果的に説明できる能力を確立
  • UC260413-007(AI安全性実装)・UC260506-014(内的検閲解析)の実験基盤として機能
  • 出版コンテンツとして「AIの解剖学」という独自の知見を体系化