ローカルLLMによるClaude Code完全代替(Phase A: エージェント代替 → C: コスト完全ゼロ化)
🔍 抽出済み | 技術 | 優先度:🔴 最優先
シリーズ: ゴールファースト・テック
目的(ゴール)
Claude Code(Anthropic API 型 AI)を完全にローカルLLM エージェントで代替し、長期的に API コストをゼロにする 3 フェーズ移行戦略を設計・実装・検証する。Phase A でコーディング・エージェントとしての CC ロールをローカルで再現し、Phase B でツール・ワークフロー統合まで拡張し、Phase C でコスト完全ゼロ化を達成する。
アクター
- 著者(Manabazu)
- Claude Code(対照・品質基準・移行元)
- ローカルLLMエージェント(OpenHands / Aider / SWE-agent on Node3、Node4 LiteLLM 経由)
- Node3(NVIDIA GPU クラスター:RTX5070Ti + 4060Ti + 3060)
- Node4 LiteLLM(モデルルーティング層、:4000)
開始条件(起動トリガー)
Anthropic API コストが月次予算を超過、またはローカルLLM の推論品質が CC の 80% 以上に達したと評価された時。あるいは CC が利用不可となるネットワーク・サービス障害時。
事前条件
- Node3 が稼働し、OpenHands / Aider / SWE-agent のいずれかが使用可能
- Node4 LiteLLM が稼働し、推論モデルが登録済み
- CC との品質比較基準(A/B テスト計画)が
60_AgenticTasks/VaultProcessing-AgentComparison.mdに定義済み
事後条件
- 対象タスク種別において、ローカルLLM エージェントが CC と同等以上の品質で処理できることが検証済み
- Phase C 達成時:Anthropic API への依存がゼロとなり、全推論がローカルで完結する
メインフロー
Phase A:エージェント代替(コーディング・タスク)
- OpenHands / Aider を Node3 で起動し、Node4 LiteLLM のモデルにルーティングする
- CC と同一のコーディングタスクセット(VT1〜VT5)をローカルLLM エージェントで実行する
- 成果物・品質・処理時間を CC と比較し、A/B テスト結果を記録する
- 品質基準(80% 以上)を達成した場合、Phase B に移行する
Phase B:ワークフロー統合
- CLAUDE.md・ツール呼び出し・フック機構に相当するプロンプト設計をローカルエージェント向けに移植する
- Vault 処理ルーティン(Publishing_ops.py 相当)をローカルエージェント経由で実行する
- CC を品質監査役として最小限利用しながら、ローカルが主担当となる体制を確立する
Phase C:コスト完全ゼロ化
- CC の残存利用箇所を特定し、ローカルエージェントで置き換える
- Anthropic API へのアクセスをゼロにした状態で全ワークフローを 2 週間運用する
- コスト削減額と品質維持の証跡をまとめ、書籍原稿の検証データとする
代替フロー
- ローカルLLM の品質が 80% を下回った場合: Phase A のまま留まり、モデルアップグレード(より高性能な GGUF)または追加ファインチューニングを検討する
- Node3 / Node4 が停止した場合: CC にフォールバックし、インフラ復旧後に再開する
例外フロー
- OOM(VRAM/RAM 不足):Node3 の VRAM 合計(44GB)を超えるモデルは Node4 の 128GB 統合メモリに移送する
- M21(Mistral-Large-123B)は Node4 で OOM 実績あり → 量子化調整または除外
備考
- UC260505-001(CC オーケストレーション)との違い:本 UC は CC を完全に除去するゴール、UC260505-001 は CC を残してローカルに補助させるゴール
- 関連検証データ:JailBreak 安全性評価(全 JSR=2.6%)、A/B テスト計画(VaultProcessing-AgentComparison.md)
- Phase A の評価対象モデル:M8 Qwen3.5-122B-A10B / M20 Gemma4-31B / M22 Qwen3.6-35B-A3B
シナリオリスト
| シナリオ | フェーズ | 概要 |
|---|---|---|
| S1 | Phase A | コーディングタスク(Vault スクリプト修正)のローカルエージェント代替 |
| S2 | Phase A | AtomicNote 生成・CBF 分類のローカルエージェント代替 |
| S3 | Phase B | publishing_ops.py 全フローのローカルエージェント実行 |
| S4 | Phase C | 2 週間 API ゼロ運用の品質・コスト記録 |
シナリオ記述
S1: コーディングタスクのローカルエージェント代替
トリガー: 著者が Vault スクリプト(vault_worker.py など)の修正タスクを発行する
フロー:
- OpenHands on Node3 が Node4 LiteLLM 経由でローカルLLM にタスクを送信する
- ローカルLLM が修正案を生成し、OpenHands が適用する
- 著者が CC と同一基準でレビューし、A/B テスト評価シートに記録する
- 品質スコアが基準を満たした場合、Phase A 合格とみなす