Pluralityナレッジベース構築(GitHub×Scrapbox日英統合RAGの実証)

🔍 抽出済み | 技術 | 優先度:🟡 中

シリーズ: AI・IT実践シリーズ


目的(ゴール)

Glen Weyl・Audrey Tang著『Plurality』(pluralitybook/plurality)の英語原文と、日本語解説コミュニティ(Scrapbox plurality-japanese)を統合した専門RAGシステムをNode3完結型で構築する。「Quadratic Fundingとは何か」「Data Dignityはどう実装されるか」のようなPluralityの概念的質問に対し、ソース引用付きで正確に回答できるナレッジベースを実現し、UC260506-006UC260506-007の各技術を実際の知的ドメインで統合検証する。

アクター

  • 著者(Manabazu)
  • Node3 RTX4060Ti + RTX3060——埋め込み生成(bge-m3)・バックグラウンド処理
  • Node3 RX7900XTX(24GB)——Qdrant Vector DB・ロングコンテキスト推論
  • Node3 RTX5070Ti(16GB)——リランカー・回答生成LLM(Llama3.1等)
  • GitHub(pluralitybook/plurality)——英語原文ソース(Markdownファイル群)
  • Scrapbox(plurality-japanese)——日本語解説コミュニティ(JSON export)
  • QNAP NAS——生データ・インデックスの永続化

データソース仕様

ソース言語形式取得方法
GitHub pluralitybook英語Markdowngit clone
Scrapbox plurality-japanese日本語JSON (project export)https://scrapbox.io/api/pages/plurality-japanese/export/project.json

検証シナリオ

S1:初期一括インジェスト

Node3ローカルで plurality_ingest.py を実行。GitHubリポジトリの全.mdファイルとScrapbox JSONを取得 → パース → bge-m3でベクトル化 → Qdrantにインデックス。処理完了まで /data/logs/ingest_report.json に記録。

S2:Scrapboxリンク構造の保持

Scrapbox特有の [[ページ名]] リンク記法を解析し、ページ間の関係性をメタデータとしてQdrantに格納。GraphRAG的なリンクトラバーサル検索を実装し、単純チャンク分割との回答品質を比較。

S3:クロスリンガル回答品質評価

日本語クエリ(「二次投票とは?」)→ 英語原文チャプターの引用 → 日本語で回答生成、のフローを検証。UC260506-007のクロスリンガル技術を実際のドメインで評価。

S4:Node3完結型の安定性検証

4GPU(CUDA 3枚 + ROCm 1枚)をDockerコンテナで役割分担させ、24時間連続稼働中のシステム安定性を測定。UC260506-006のDocker分離設計の実証。

S5:将来的なオフライン化

Plurality専用の小型モデル(Distillation)をNode1 NPUで動作させ、Surface Proからオフラインでも基本的な概念説明が得られるエッジ推論を実現。

対応リスク

期待成果

  • RAG技術スタック(UC260506-005〜007)の統合実証として機能
  • Plurality概念の理解・出版活動・講演準備に即活用できる専門ナレッジベース
  • Scrapbox→GraphRAG手法をUC260506-004(Vault RAG)へ逆輸入しVault知識ベースを強化