メカニスティック解釈可能性実験基盤（回路分析・SAE・活性化解析をCBFラボで実施）

🔍 抽出済み｜技術｜優先度：🟠 高

シリーズ: AI・IT実践シリーズ

目的（ゴール）

LLMの内部動作を「回路（Circuit）」レベルでリバースエンジニアリングするメカニスティック解釈可能性（MI）の実験基盤をCBFラボに構築する。活性化パッチング・疎な自己符号化器（SAE）・Logit Lensの3手法を組み合わせ、「モデルがなぜその答えを出したか」を因果的に特定できる研究環境を確立する。UC260413-007（AI安全性実装）の「なぜ安全なのか」を実証する法医学的基盤として機能させる。

アクター

著者（Manabazu）
Node3 RTX5070Ti（16GB / CUDA）——TransformerLensによる活性化パッチング・回路トレーシング
Node3 RX7900XTX（24GB / ROCm）——SAE学習・大規模活性化ログ解析
Node2（EVO-X1）——解析結果の可視化・オーケストレーション（Streamlit）
TransformerLens / SAELens / baukit——主要MIライブラリ
解析対象モデル（GPT-2・Llama-3-8B・DeepSeek-R1-Distill-14B等）

検証シナリオ

S1：回路分析（Circuit Analysis）基盤構築

TransformerLensを使いNode3 RTX5070TiでGPT-2の「間接目的語識別タスク（IOI）」回路をトレース。既知の論文結果を再現し、CBFラボでのMI実験環境の動作を確認。

S2：SAEによる特徴量抽出

RX7900XTX（24GB）上でSAELensを使いLlama-3-8Bの中間層を分解。「数学推論」「コード」「感情」に対応する特徴量を特定し、活性化パターンを可視化。

S3：Logit Lens で思考プロセスの時系列追跡

モデルが多段推論する際、各層で「何を考えているか」をLogit Lensで時系列追跡。RLMの思考トークン（<thought>内）での層別活性化変化をChain of Thoughtとの相関で検証。

S4：CoT忠実度スコアリング

モデルがCoTで「AだからBである」と述べた際、Node3でSAEを用いて「A」の特徴量が内部で活性化しているかを検証。不誠実なCoT（Unfaithful CoT）の検出パイプラインを構築。

S5：クロス量子化ドリフト解析

FP16とINT4量子化モデルの同一プロンプトに対する内部活性化の差異をKLダイバージェンスで計測。量子化が「思考の質」に与える影響をMIレベルで定量化。

対応リスク

期待成果

「モデルがなぜ安全か・なぜ失敗するか」をブラックボックスから解放し、因果的に説明できる能力を確立
UC260413-007（AI安全性実装）・UC260506-014（内的検閲解析）の実験基盤として機能
出版コンテンツとして「AIの解剖学」という独自の知見を体系化

シンギュラリティ志向ライフ

メカニスティック解釈可能性実験基盤（回路分析・SAE・活性化解析をCBFラボで実施）

メカニスティック解釈可能性実験基盤（回路分析・SAE・活性化解析をCBFラボで実施）

目的（ゴール）

アクター

検証シナリオ

S1：回路分析（Circuit Analysis）基盤構築

S2：SAEによる特徴量抽出

S3：Logit Lens で思考プロセスの時系列追跡

S4：CoT忠実度スコアリング

S5：クロス量子化ドリフト解析

対応リスク

期待成果

目次

バックリンク