シンギュラリティ志向ライフ
Search
検索
ダークモード
ライトモード
ホーム
コンバージング・ビット
出版シリーズ
リスクリスト
ユースケース一覧
出版済み書籍一覧
著者プロフィール
タグ: 解釈可能性
2件のページ
2026年5月07日
メカニスティック解釈可能性実験基盤(回路分析・SAE・活性化解析をCBFラボで実施)
usecase
技術
高
抽出済み
MI
解釈可能性
SAE
回路分析
AI安全性
TransformerLens
2026年5月07日
AI内的検閲メカニズム解析(拒否回路の特定とActivation Steering)
usecase
技術
高
抽出済み
MI
解釈可能性
拒否回路
ActivationSteering
AI安全性
検閲
RLHF