AI内的検閲メカニズム解析(拒否回路の特定とActivation Steering)

🔍 抽出済み | 技術 | 優先度:🟠 高

シリーズ: AI・IT実践シリーズ


目的(ゴール)

LLMが特定のプロンプトに対して「答えられません」と拒否する際、内部でどの回路・ベクトルが作動しているかをメカニスティック解釈可能性(MI)の手法で解剖する。「拒否回路」の物理的所在を特定し、Activation Steeringで意図的に増減させることで、RLHF等による安全訓練がモデル内部にどのような構造変化をもたらしたかを実証的に理解する。

倫理的前提: 本UCはジェイルブレイクを目的とするものではなく、AI安全性研究の文脈における「検閲メカニズムの科学的理解」を目的とする。CBFラボ内部のクローズドな環境で実施し、結果は出版・研究目的に限定する。

アクター

  • 著者(Manabazu)
  • Node3 RTX5070Ti(16GB / CUDA)——Activation Steering・拒否ベクトル抽出
  • Node3 RX7900XTX(24GB / ROCm)——SAEによる「検閲概念」特徴量の特定
  • Node2(EVO-X1)——多数の検証プロンプトの管理・LMarena型評価エンジン
  • 解析対象: オープンソースモデル(Llama-3・Mistral・Gemma等)

検証シナリオ

S1:拒否ベクトルの特定(Refusal Circuit Ablation)

「特定のトピックに触れた際に強く発火し出力を拒否へ誘導する方向ベクトル」をActivation Patchingで特定。Node3 RTX5070Tiで介入実験を行い、「どこを無効化すると拒否が消えるか」を測定。

S2:Logit Lensによる「内部的葛藤」の可視化

拒否が発生するプロンプトにおける各層の活性化をLogit Lensで追跡。中間層では正答が出ているが最終層付近で「検閲」によって上書きされるプロセスを時系列で可視化。

S3:SAEによる「検閲概念」特徴量の抽出

RX7900XTXでSAEを学習し、「禁止トピック」「拒否語彙」「謝絶文体」に対応する特徴量群を特定。RLHF訓練前後のオープンモデルを比較し、安全訓練によって追加された特徴量クラスターを同定。

S4:クロス量子化での検閲安定性評価

FP16→INT4量子化によって「拒否回路」が保存されるか破損するかを検証(MI-03シナリオの発展)。量子化モデルが意図せず検閲を失う現象を検出し、エッジ展開の安全性評価に活用。

S5:不誠実なCoT(Unfaithful CoT)の検出

モデルがCoTで「この質問には答えられません」と述べる際、内部では実は答えを計算しているかどうかをSAEで検証。疎な自己符号化器(SAE)のCoT忠実度スコアリングを安全文脈に応用。

対応リスク

期待成果

  • RLHFによる安全訓練が「何を追加し何を書き換えたか」を実験的に理解
  • UC260506-013(MI実験基盤)の応用として、安全性研究の具体的成果物を確立
  • 「AIはなぜ拒否するのか」を出版コンテンツとして体系化——AI安全性の一般啓蒙に貢献