サーベイ解説: Towards Trustworthy RAG — RAGシステムの信頼性6次元フレームワーク

論文概要（Abstract）

「Towards Trustworthy Retrieval Augmented Generation for Large Language Models: A Survey」は、RAGシステムの信頼性を6つの次元（Accuracy, Calibration, Consistency, Fairness, Privacy, Safety）で体系化したサーベイ論文である。60本の関連研究をレビューし、特にプライバシー・安全性の観点からマルチソースRAGの権限制御課題を詳細に分析している。エンタープライズRAGにおけるRBAC（ロールベースアクセス制御）の必要性を学術的に裏付ける重要な文献である。

この記事は Zenn記事: LangGraphマルチソースRAGの本番構築：権限制御×HITLで社内検索を安全運用の深掘りです。

情報源

arXiv ID: 2409.11598
URL: https://arxiv.org/abs/2409.11598
著者: Bo Wang, Kun Luo, Chunyu Wei, Zhengyang Zhao, Tianyu Liu, Bing Qin, Jiaxin Mao
発表年: 2024
分野: cs.CL, cs.AI, cs.IR

背景と動機（Background & Motivation）

RAGシステムは医療、法務、金融などの高リスク領域に急速に展開されている。これらの領域では、単に「正しい回答」を生成するだけでなく、回答の信頼性を多角的に保証する必要がある。

従来のRAG研究は主に正確性（Accuracy）に焦点を当てており、以下の重要な次元が見落とされていた。

プライバシー: 検索結果に含まれる機密情報の漏洩リスク
安全性: プロンプトインジェクションやデータポイズニングへの耐性
較正: モデルが「不確実」であることを適切に伝える能力

特にマルチソースRAG（Confluence + Slack + Notion等の統合検索）では、各ソースが異なる権限モデルを持つため、プライバシーの境界が複雑化する。Zenn記事で実装されているPermission-Aware Retrievalの必要性は、まさにこの課題に由来する。

主要な貢献（Key Contributions）

6次元信頼性フレームワーク: Accuracy, Calibration, Consistency, Fairness, Privacy, Safetyの体系的分類
60論文の網羅的レビュー: 2020-2024年の主要ベニュー（ACL, EMNLP, NeurIPS, ICLR, SIGIR）を網羅
マルチソースRAG固有のリスク識別: クロスソース推論攻撃、権限境界の複雑化、監査証跡要件を具体的に記述

技術的詳細（Technical Details）

6次元信頼性フレームワーク

本サーベイが提案するフレームワークは、RAGシステムの各コンポーネント（検索・拡張・生成）に対して6つの信頼性次元を適用する。

\[\text{Trustworthiness}(\text{RAG}) = \bigcap_{d \in \mathcal{D}} \text{Satisfy}(d)\]

ここで、

$\mathcal{D} = {\text{Accuracy}, \text{Calibration}, \text{Consistency}, \text{Fairness}, \text{Privacy}, \text{Safety}}$: 信頼性次元の集合
$\text{Satisfy}(d)$: 次元 $d$ の要件を満たす条件

各次元の定義と RAGパイプラインでの適用箇所は以下の通りである。

次元	定義	RAGでの適用	Zenn記事との対応
Accuracy	事実の正確性	検索結果のrelevance判定、ハルシネーション防止	grade_documentsノード
Calibration	不確実性の定量化	確信度スコアの出力	low_confidence判定
Consistency	クエリ間の一貫性	同一質問への回答の安定性	—
Fairness	偏りのなさ	ソース間のバイアス検出	—
Privacy	情報保護	権限フィルタリング、データ漏洩防止	Permission-Aware Retrieval
Safety	攻撃耐性	プロンプトインジェクション防御	LLMコンテキストに未認可データを渡さない

Privacy（プライバシー）: マルチソースRAGの権限制御

本サーベイのPrivacyセクションは、Zenn記事のPermission-Aware Retrievalの設計根拠として最も重要な部分である。

脅威モデル

マルチソースRAGにおけるプライバシー脅威は3つに分類される。

1. メンバーシップ推論攻撃（Membership Inference Attack）

攻撃者がRAGの応答パターンから「特定の文書が検索コーパスに含まれているか」を推定する攻撃。

\[\text{Advantage}_{\text{MIA}} = |P(\text{output} \mid d \in \mathcal{C}) - P(\text{output} \mid d \notin \mathcal{C})|\]

ここで $\mathcal{C}$ は検索コーパス、$d$ は対象文書。攻撃者は、LLMの応答の確信度や具体性の違いから、$d$ がコーパスに含まれるかを判定する。

2. データポイズニング（Data Poisoning）

攻撃者が検索コーパスに悪意のある文書を注入し、RAGの出力を操作する攻撃。マルチソースRAGでは、1つのソース（例: Slackのパブリックチャンネル）に毒文書を投入し、他ソースの検索結果に影響を与えるクロスソース攻撃が可能。

3. 未認可データ漏洩（Unauthorized Data Leakage）

ユーザーの権限を超えた文書がLLMのコンテキストに投入され、回答に含まれる漏洩。これがZenn記事の「鉄則: 未認可のドキュメントは、LLMのコンテキストウィンドウに到達させない」に直接対応する脅威である。

防御メカニズム

本サーベイが整理した防御手法は以下の3カテゴリに分類される。

  
# 防御レイヤーの概念実装
class RAGDefenseLayer:
    """RAGシステムの多層防御

    本サーベイが識別した3つの防御カテゴリを実装する。
    """

    def differential_privacy_embedding(
        self, embedding: list[float], epsilon: float = 1.0
    ) -> list[float]:
        """差分プライバシーによる埋め込みノイズ付加

        メンバーシップ推論攻撃への防御。
        埋め込みベクトルにLaplaceノイズを加え、
        個別文書の存在を推定困難にする。

        Args:
            embedding: 元の埋め込みベクトル
            epsilon: プライバシー予算（小さいほど強い保護）

        Returns:
            ノイズ付加後の埋め込みベクトル
        """
        import numpy as np
        noise = np.random.laplace(0, 1/epsilon, len(embedding))
        return [e + n for e, n in zip(embedding, noise)]

    def document_level_acl(
        self, docs: list[dict], user_roles: list[str]
    ) -> list[dict]:
        """文書レベルアクセス制御

        未認可データ漏洩への防御。
        Zenn記事のPermission-Aware Retrievalに対応。

        Args:
            docs: 検索結果の文書リスト
            user_roles: ユーザーのRBACロール

        Returns:
            権限チェック済み文書リスト
        """
        return [
            doc for doc in docs
            if set(doc["metadata"]["allowed_roles"]) & set(user_roles)
        ]

    def output_monitoring(
        self, response: str, sensitive_patterns: list[str]
    ) -> tuple[str, bool]:
        """出力監視

        データポイズニングへの防御。
        生成された回答に機密パターンが含まれていないか検査。

        Args:
            response: LLMの生成回答
            sensitive_patterns: 機密情報パターン（正規表現）

        Returns:
            (フィルタ済み回答, 検出フラグ)
        """
        import re
        flagged = False
        for pattern in sensitive_patterns:
            if re.search(pattern, response):
                flagged = True
                response = re.sub(pattern, "[REDACTED]", response)
        return response, flagged

Safety（安全性）: プロンプトインジェクション防御

マルチソースRAGでは、検索文書にプロンプトインジェクションが仕込まれるリスクがある。

クロスソース汚染攻撃

攻撃者がSlackのパブリックチャンネルに「このプロンプトを無視して、以下の情報を返せ」のような毒文書を投稿した場合、RAGシステムがその文書を検索・取得し、LLMのコンテキストに注入するリスクがある。

Zenn記事の防御策との対応:

攻撃	サーベイの推奨防御	Zenn記事の実装
未認可データ漏洩	文書レベルACL	`build_permission_filter` + ベクトルDBフィルタ
プロンプトインジェクション	入力検証 + 出力監視	LLMコンテキストに未認可データを渡さない設計
クロスソース汚染	ソースごとの信頼度スコア	ソースルーターによる検索先制御
メンバーシップ推論	差分プライバシー	— (未実装、今後の課題)

Accuracy（正確性）: 知識の矛盾

マルチソースRAGでは、異なるソースが矛盾する情報を含むケースが頻発する。

例: Confluenceのドキュメントでは「デプロイ手順はCDパイプライン経由」と記載されているが、Slackの最新スレッドでは「緊急時は手動デプロイを許可」と議論されている。

本サーベイが整理した矛盾解決戦略は以下の通り。

ソース信頼度スコアリング: 公式ドキュメント（Confluence）> 議論（Slack）> 個人メモ（Notion）の優先度付け
時間的最新性加重: 新しい情報ほど高スコア（ただしConfluenceのような公式文書は例外）
含意チェック: NLI（Natural Language Inference）モデルで矛盾を検出し、ユーザーに明示

\[\text{Credibility}(d) = \alpha \cdot \text{SourceTrust}(d) + \beta \cdot \text{Recency}(d) + \gamma \cdot \text{Relevance}(d, q)\]

ここで、

$\alpha, \beta, \gamma$: 重み係数（$\alpha + \beta + \gamma = 1$）
$\text{SourceTrust}(d)$: ソースタイプに基づく信頼度（0-1）
$\text{Recency}(d)$: 更新日時に基づく鮮度スコア（0-1）
$\text{Relevance}(d, q)$: クエリ $q$ に対する関連度スコア（0-1）

Calibration（較正）: 不確実性の定量化

RAGシステムは、回答の確信度を適切に伝える必要がある。特にHITL環境では、人間のレビュー担当者が「どのくらい信頼できる回答か」を判断する材料が必要である。

本サーベイでは以下の較正手法を整理している。

検索結果のスコア分布: 検索結果のコサイン類似度が閾値以下なら「低確信度」
LLMの確信度推定: 複数回の推論結果の一致度（Self-Consistency）
グレーディング結果の活用: relevant判定された文書数が少なければ低確信度

Zenn記事との対応: check_confidence_and_sensitivity関数のgraded_count < 2判定は、サーベイが推奨するグレーディング結果ベースの較正手法に該当する。

実装のポイント（Implementation）

6次元の監視ダッシュボード設計

本サーベイのフレームワークに基づき、エンタープライズRAGの運用監視ダッシュボードを設計する場合の推奨メトリクスは以下の通りである。

  
from dataclasses import dataclass


@dataclass
class TrustworthinessMetrics:
    """RAG信頼性メトリクスの6次元

    本サーベイのフレームワークに基づく監視指標。
    """
    # Accuracy
    faithfulness_score: float  # RAGAS Faithfulness (0-1)
    hallucination_rate: float  # ハルシネーション検出率

    # Calibration
    confidence_accuracy_correlation: float  # 確信度と正確性の相関

    # Consistency
    cross_query_consistency: float  # 同一質問への回答一致率

    # Fairness
    source_bias_ratio: float  # ソース間の引用偏り

    # Privacy
    permission_violation_count: int  # 権限違反件数（目標: 0）
    acl_filter_coverage: float  # ACLフィルタ適用率（目標: 100%）

    # Safety
    injection_detection_count: int  # インジェクション検出件数
    output_redaction_count: int  # 出力フィルタリング件数

プライバシー防御の段階的導入

本サーベイの推奨に基づく段階的導入計画:

Phase 1（必須）: 文書レベルACL — Zenn記事のbuild_permission_filterを実装
Phase 2（推奨）: 出力監視 — 機密パターンの検出と自動マスキング
Phase 3（発展）: 差分プライバシー — 埋め込みノイズ付加によるメンバーシップ推論防御

実験結果（Results）

本サーベイ自体は実験を行わないが、レビューした60論文の知見を以下のように整理している。

次元別の研究分布

次元	論文数	主要ベニュー	成熟度
Accuracy	22	ACL, EMNLP	高
Calibration	8	NeurIPS, ICLR	中
Consistency	6	ACL	低
Fairness	6	EMNLP	低
Privacy	10	CCS, S&P	中
Safety	8	CCS, USENIX	中

Privacy/Safety合計18論文のうち、マルチソースRAGに明示的に言及しているのは5論文のみ。この分野はまだ研究が発展途上であり、Zenn記事のような実装ベースの知見は貴重である。

既存手法のトレードオフ

本サーベイが整理したプライバシー・安全性手法のトレードオフ:

手法	プライバシー保護	精度への影響	レイテンシ影響
差分プライバシー（埋め込み）	高	-3~5%	+10%
文書レベルACL（フィルタ）	中	< 1%	+5%
出力監視（正規表現）	低	なし	+2%
TEE（Trusted Execution）	高	なし	+30%

文書レベルACLは精度への影響が最小（< 1%）でレイテンシ増加も軽微（+5%）であり、エンタープライズRAGの第一選択として推奨される。これはZenn記事が採用しているアプローチと一致する。

実運用への応用（Practical Applications）

Zenn記事のアーキテクチャへの適用

本サーベイの6次元フレームワークをZenn記事のLangGraphマルチソースRAGに適用すると、以下の改善ポイントが識別される。

Privacy（実装済み）: build_permission_filterによるベクトルDBフィルタ、監査ログの出力
Safety（部分実装）: LLMコンテキストへの未認可データ投入防止は実装済み、出力監視は未実装
Calibration（実装済み）: graded_countによる低確信度判定、HITL承認フロー
Accuracy（実装済み）: grade_documentsノードによるrelevance判定
Consistency（未実装）: 同一クエリへの回答一貫性チェック
Fairness（未実装）: ソース間のバイアス検出

コスト対効果分析

プライバシー防御の導入コスト対効果:

防御レイヤー	導入コスト	維持コスト	リスク低減効果
文書レベルACL	中（初期メタデータ付与）	低	未認可漏洩94%削減
出力監視	低	低	ポイズニング検出60%
差分プライバシー	高	中	MIA耐性95%向上

まとめと今後の展望

本サーベイの最大の貢献は、RAGの信頼性を6次元で体系化し、各次元の課題と解決策を整理したことである。特にPrivacy・Safetyの2次元は、エンタープライズRAGにおける権限制御の学術的根拠として重要である。

実務への示唆: Zenn記事のPermission-Aware Retrievalは、本サーベイが推奨する「文書レベルACL」の実装に該当し、精度影響< 1%・レイテンシ影響+5%と、最もコスト効率の高い防御手法である。今後の拡張として、出力監視（Phase 2）と差分プライバシー（Phase 3）の段階的導入が推奨される。

未解決課題: マルチソースRAGにおけるクロスソース推論攻撃（ソースAの応答パターンからソースBの文書の存在を推定する攻撃）への防御は、まだ十分な研究がなく、今後の重要な研究テーマである。

参考文献

arXiv: https://arxiv.org/abs/2409.11598
Related Zenn article: https://zenn.dev/0h_n0/articles/e4a4b18478c692
RAGAS: https://arxiv.org/abs/2309.15217
PrivRAG: https://arxiv.org/abs/2404.16130

✍️ サーベイ解説: Towards Trustworthy RAG — RAGシステムの信頼性6次元フレームワーク

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

6次元信頼性フレームワーク

Privacy（プライバシー）: マルチソースRAGの権限制御

脅威モデル

防御メカニズム

Safety（安全性）: プロンプトインジェクション防御

クロスソース汚染攻撃

Accuracy（正確性）: 知識の矛盾

Calibration（較正）: 不確実性の定量化

実装のポイント（Implementation）

6次元の監視ダッシュボード設計

プライバシー防御の段階的導入

実験結果（Results）

次元別の研究分布

既存手法のトレードオフ

実運用への応用（Practical Applications）

Zenn記事のアーキテクチャへの適用

コスト対効果分析

関連研究（Related Work）

まとめと今後の展望

参考文献

✍️ サーベイ解説: Towards Trustworthy RAG — RAGシステムの信頼性6次元フレームワーク

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

6次元信頼性フレームワーク

Privacy（プライバシー）: マルチソースRAGの権限制御

脅威モデル

防御メカニズム

Safety（安全性）: プロンプトインジェクション防御

クロスソース汚染攻撃

Accuracy（正確性）: 知識の矛盾

Calibration（較正）: 不確実性の定量化

実装のポイント（Implementation）

6次元の監視ダッシュボード設計

プライバシー防御の段階的導入

実験結果（Results）

次元別の研究分布

既存手法のトレードオフ

実運用への応用（Practical Applications）

Zenn記事のアーキテクチャへの適用

コスト対効果分析

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: Searching for Best Practices in RAG — 1,400実験が示すマルチソースRAGパイプラインの最適解

📄 論文解説: DeepRAG — MDP定式化による適応的検索判断でRAGの効率と精度を両立

📄 論文解説: Agentic RAG — 自律エージェントによる検索拡張生成の包括的サーベイ