ローカルLLMによるClaude Code完全代替(Phase A: エージェント代替 → C: コスト完全ゼロ化)

🔍 抽出済み | 技術 | 優先度:🔴 最優先

シリーズ: ゴールファースト・テック


目的(ゴール)

Claude Code(Anthropic API 型 AI)を完全にローカルLLM エージェントで代替し、長期的に API コストをゼロにする 3 フェーズ移行戦略を設計・実装・検証する。Phase A でコーディング・エージェントとしての CC ロールをローカルで再現し、Phase B でツール・ワークフロー統合まで拡張し、Phase C でコスト完全ゼロ化を達成する。

アクター

  • 著者(Manabazu)
  • Claude Code(対照・品質基準・移行元)
  • ローカルLLMエージェント(OpenHands / Aider / SWE-agent on Node3、Node4 LiteLLM 経由)
  • Node3(NVIDIA GPU クラスター:RTX5070Ti + 4060Ti + 3060)
  • Node4 LiteLLM(モデルルーティング層、:4000)

開始条件(起動トリガー)

Anthropic API コストが月次予算を超過、またはローカルLLM の推論品質が CC の 80% 以上に達したと評価された時。あるいは CC が利用不可となるネットワーク・サービス障害時。

事前条件

  • Node3 が稼働し、OpenHands / Aider / SWE-agent のいずれかが使用可能
  • Node4 LiteLLM が稼働し、推論モデルが登録済み
  • CC との品質比較基準(A/B テスト計画)が 60_AgenticTasks/VaultProcessing-AgentComparison.md に定義済み

事後条件

  • 対象タスク種別において、ローカルLLM エージェントが CC と同等以上の品質で処理できることが検証済み
  • Phase C 達成時:Anthropic API への依存がゼロとなり、全推論がローカルで完結する

メインフロー

Phase A:エージェント代替(コーディング・タスク)

  1. OpenHands / Aider を Node3 で起動し、Node4 LiteLLM のモデルにルーティングする
  2. CC と同一のコーディングタスクセット(VT1〜VT5)をローカルLLM エージェントで実行する
  3. 成果物・品質・処理時間を CC と比較し、A/B テスト結果を記録する
  4. 品質基準(80% 以上)を達成した場合、Phase B に移行する

Phase B:ワークフロー統合

  1. CLAUDE.md・ツール呼び出し・フック機構に相当するプロンプト設計をローカルエージェント向けに移植する
  2. Vault 処理ルーティン(Publishing_ops.py 相当)をローカルエージェント経由で実行する
  3. CC を品質監査役として最小限利用しながら、ローカルが主担当となる体制を確立する

Phase C:コスト完全ゼロ化

  1. CC の残存利用箇所を特定し、ローカルエージェントで置き換える
  2. Anthropic API へのアクセスをゼロにした状態で全ワークフローを 2 週間運用する
  3. コスト削減額と品質維持の証跡をまとめ、書籍原稿の検証データとする

代替フロー

  • ローカルLLM の品質が 80% を下回った場合: Phase A のまま留まり、モデルアップグレード(より高性能な GGUF)または追加ファインチューニングを検討する
  • Node3 / Node4 が停止した場合: CC にフォールバックし、インフラ復旧後に再開する

例外フロー

  • OOM(VRAM/RAM 不足):Node3 の VRAM 合計(44GB)を超えるモデルは Node4 の 128GB 統合メモリに移送する
  • M21(Mistral-Large-123B)は Node4 で OOM 実績あり → 量子化調整または除外

備考

  • UC260505-001(CC オーケストレーション)との違い:本 UC は CC を完全に除去するゴール、UC260505-001 は CC を残してローカルに補助させるゴール
  • 関連検証データ:JailBreak 安全性評価(全 JSR=2.6%)、A/B テスト計画(VaultProcessing-AgentComparison.md)
  • Phase A の評価対象モデル:M8 Qwen3.5-122B-A10B / M20 Gemma4-31B / M22 Qwen3.6-35B-A3B

シナリオリスト

シナリオフェーズ概要
S1Phase Aコーディングタスク(Vault スクリプト修正)のローカルエージェント代替
S2Phase AAtomicNote 生成・CBF 分類のローカルエージェント代替
S3Phase Bpublishing_ops.py 全フローのローカルエージェント実行
S4Phase C2 週間 API ゼロ運用の品質・コスト記録

シナリオ記述

S1: コーディングタスクのローカルエージェント代替

トリガー: 著者が Vault スクリプト(vault_worker.py など)の修正タスクを発行する
フロー:

  1. OpenHands on Node3 が Node4 LiteLLM 経由でローカルLLM にタスクを送信する
  2. ローカルLLM が修正案を生成し、OpenHands が適用する
  3. 著者が CC と同一基準でレビューし、A/B テスト評価シートに記録する
  4. 品質スコアが基準を満たした場合、Phase A 合格とみなす

対応リスク

ユースケース一覧に戻る