本記事は arXiv:2403.05676 PipeRAG: Fast Retrieval-Augmented Generation via Algorithm-System Co-design の解説記事です。
論文概要(Abstract)
PipeRAGは、検索拡張生成(RAG)システムにおいて、検索処理と生成処理のパイプライン並列化を実現するアルゴリズム・システム協調設計フレームワークである。著者らは、大規模データベースからの検索がRAG全体の生成レイテンシの大部分を占めるという課題に対し、(1) パイプライン並列化、(2) 柔軟な検索インターバル、(3) 性能モデルによる自動品質・レイテンシバランス調整の3つのコンポーネントを統合した。論文の実験では、品質(パープレキシティ)を維持しながら最大2.6倍の高速化を達成したと報告されている。
この記事は Zenn記事: LangChain LCEL実践ガイド:LLMチェーンのレイテンシを50%削減する最適化手法 の深掘りです。Zenn記事ではLCELのRunnableParallelによるパイプライン並列化を解説していますが、本記事ではRAGシステムレベルでの検索・生成並列化の理論的基盤を掘り下げます。
情報源
- arXiv ID: 2403.05676
- URL: https://arxiv.org/abs/2403.05676
- 著者: Wenqi Jiang, Shuai Zhang, Boran Han, Jie Wang, Bernie Wang, Tim Kraska
- 発表年: 2024(KDD 2025に採択)
- 分野: cs.CL, cs.IR
背景と動機(Background & Motivation)
RAGシステムは外部データベースからの検索結果をLLMの生成に組み込むことで、知識の正確性を向上させる。しかし、大規模データベース(数十億チャンク規模)からの検索は、LLMの推論時間と同等またはそれ以上のレイテンシを発生させる。特に、Retro(Borgeaud et al., 2022)のような定期的に検索を行うモデルでは、固定インターバル(64トークンごと)で検索が発生するため、検索レイテンシが全体の生成時間に累積的に影響する。
従来のRAGシステムは検索と生成を逐次的に実行しており、検索中はGPUがアイドル状態、生成中はCPU/メモリがアイドル状態となる。著者らはこの非効率性に着目し、異なるハードウェアリソースを使用する検索(CPU)と生成(GPU)を並列化できることを指摘した。
主要な貢献(Key Contributions)
- 貢献1: 検索と生成のパイプライン並列化を実現する「Stale Query」メカニズムの提案。最新のコンテキストではなく直前のコンテキストで検索を開始することで、検索と生成を時間的にオーバーラップさせる。
- 貢献2: 検索インターバルを固定値(64トークン)から柔軟な値(8, 16, 32トークン等)に拡張し、検索頻度と品質のトレードオフを制御可能にした。
- 貢献3: 検索品質とレイテンシを自動的にバランスする性能モデルを提案。ハードウェア構成と生成状態に基づき、検索パラメータ(nprobe値)を動的に最適化する。
技術的詳細(Technical Details)
パイプライン並列化のメカニズム
PipeRAGの中核は、検索クエリの「Staleness(陳腐化)」を許容することにある。通常のRetroモデルでは、チャンク $C_{j+1}$ を生成する際にクエリ $Q = C_j$(直前チャンク)を使って検索する。PipeRAGでは、生成と検索を並列化するため、わずかに古いコンテキストでクエリを発行する。
Stale Queryの形式的定義は以下の通りである:
\[\hat{Q} = (x_{jm-s}, \ldots, x_{jm+m-1-s})\]ここで、
- $m$: 検索インターバル(トークン数)
- $s$: Stalenessオフセット(並列化のための遅延トークン数)
- $x_i$: $i$ 番目のトークン
検索結果はシフト操作で時間的な整合性を調整する:
\[\widehat{\text{Ret}(Q)} = \text{Shift}(\text{Ret}(\hat{Q}), s)\]著者らの実験(論文Table 2, Appendix D.1)によると、Stale Queryと非Staleクエリの検索結果のコサイン類似度は、staleness 64トークンでも0.8875を維持しており、並列化による品質劣化は限定的であると報告されている。
柔軟な検索インターバル
標準的なRetroは固定インターバル $m = 64$ でのみ動作するが、PipeRAGでは $m’ \in {8, 16, 32, \ldots}$ の柔軟なインターバルをサポートする。短いインターバルは以下の利点を持つ:
- Stalenessの低減: $m’ = 32$ の場合、staleness $s = 32$ となり、$m = 64$ の場合の半分に低減
- 検索頻度の向上: より新しいコンテキストで検索を行えるため、生成品質が向上
- パイプライン効率の向上: 検索と生成の各ステージの粒度が細かくなり、パイプラインの充填率が向上
Decoder-to-Decoder Attentionの計算では、チャンク $C_{j+1}$(長さ $m’$)の生成時に、直前の検索結果 $\text{Ret}(Q_{j-1})$ に対してChunked Cross-Attentionを適用する。
性能モデルによる自動最適化
PipeRAGは、推論レイテンシと検索レイテンシのモデリングに基づき、検索パラメータを動的に最適化する。
推論レイテンシモデル:
\[T_C = T_{\text{Enc}} + T_{\text{Dec}}\]- $T_{\text{Enc}}$: 検索結果のエンコーディング時間(検索件数・トークン数に依存)
- $T_{\text{Dec}}$: デコーダ時間(シーケンス長に線形比例)
検索レイテンシモデル(IVF-PQ):
\[T_{\text{Ret}} = T_{\text{Network}} + T_{\text{EncQuery}} + T_{\text{ScanIndex}} + T_{\text{ScanVec}}\]ここで $T_{\text{ScanVec}}$ はnprobe値(IVFのスキャンリスト数)に線形比例する。パイプライン並列化の制約条件は $T_{\text{Ret}} \leq T(C)$ であり、この制約下で最大のnprobe値を選択することで、レイテンシ予算内での検索品質を最大化する。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
def optimize_nprobe(
inference_latency: float,
network_latency: float,
query_encode_time: float,
scan_index_time: float,
scan_vec_per_nprobe: float,
) -> int:
"""性能モデルに基づくnprobe最適化
Args:
inference_latency: 推論ステージのレイテンシ(秒)
network_latency: ネットワークRTT(秒)
query_encode_time: クエリエンコーディング時間(秒)
scan_index_time: IVFインデックススキャン時間(秒)
scan_vec_per_nprobe: nprobe1あたりのベクトルスキャン時間(秒)
Returns:
最適なnprobe値
"""
available_time = inference_latency - network_latency - query_encode_time - scan_index_time
if available_time <= 0:
return 1 # 最小値
optimal_nprobe = int(available_time / scan_vec_per_nprobe)
return max(1, optimal_nprobe)
実装のポイント(Implementation)
ハードウェア構成
著者らの実験環境では以下の構成が使用されている:
- 推論: NVIDIA A100 GPU(40GB)、PyTorch → ONNX Runtime変換で2-3倍高速化
- 検索: Intel Xeon Platinum 8259CL(48コア、384GB RAM)、Faiss IVF-PQ
- ネットワーク: gRPC通信、RTT約1ms
実装上の注意点
- ONNX Runtime変換: PyTorchモデルをONNX形式に変換することで推論速度が2-3倍向上。ただし、カスタムAttention機構のONNX対応には追加実装が必要
- Faissインデックス設計: IVF-PQ(nlist=16384, PQ code=64 bytes)を使用。nlist値はデータ量に応じて調整が必要
- gRPC通信の最適化: 検索クエリと結果のシリアライズ/デシリアライズのオーバーヘッドを最小化するため、Protocol Buffersの効率的なスキーマ設計が重要
Zenn記事との関連
Zenn記事で解説されているLCELのRunnableParallelは、アプリケーション層での並列化(複数リトリーバーの同時実行等)を実現する。PipeRAGはこれをシステム層に拡張し、単一のRAGパイプライン内で検索と生成を並列化する。両者は相互補完的であり、LCELのRunnableParallelでマルチソース検索を並列化し、各検索パイプライン内でPipeRAGの手法を適用する多層的な最適化が可能である。
Production Deployment Guide
AWS実装パターン(コスト最適化重視)
トラフィック量別の推奨構成:
| 規模 | 月間リクエスト | 推奨構成 | 月額コスト | 主要サービス |
|---|---|---|---|---|
| Small | ~3,000 (100/日) | Serverless | $50-150 | Lambda + Bedrock + DynamoDB |
| Medium | ~30,000 (1,000/日) | Hybrid | $300-800 | Lambda + ECS Fargate + ElastiCache |
| Large | 300,000+ (10,000/日) | Container | $2,000-5,000 | EKS + Karpenter + EC2 Spot |
Small構成の詳細 (月額$50-150):
- Lambda: 1GB RAM, 60秒タイムアウト ($20/月)
- Bedrock: Claude 3.5 Haiku, Prompt Caching有効 ($80/月)
- DynamoDB: On-Demand ($10/月)
- OpenSearch Serverless: ベクトル検索用 ($25/月)
コスト削減テクニック:
- Spot Instances使用で最大90%削減(EKS + Karpenter)
- Bedrock Batch API使用で50%削減(非リアルタイム処理)
- Prompt Caching有効化で30-90%削減
- OpenSearch Serverlessのスケールダウンでアイドルコスト削減
コスト試算の注意事項:
- 上記は2026年2月時点のAWS ap-northeast-1(東京)リージョン料金に基づく概算値です
- 実際のコストはトラフィックパターン、リージョン、バースト使用量により変動します
- 最新料金は AWS料金計算ツール で確認してください
Terraformインフラコード
Small構成 (Serverless): Lambda + Bedrock + OpenSearch
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
module "vpc" {
source = "terraform-aws-modules/vpc/aws"
version = "~> 5.0"
name = "piperag-vpc"
cidr = "10.0.0.0/16"
azs = ["ap-northeast-1a", "ap-northeast-1c"]
private_subnets = ["10.0.1.0/24", "10.0.2.0/24"]
enable_nat_gateway = false
enable_dns_hostnames = true
}
resource "aws_iam_role" "lambda_bedrock" {
name = "piperag-lambda-role"
assume_role_policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Action = "sts:AssumeRole"
Effect = "Allow"
Principal = { Service = "lambda.amazonaws.com" }
}]
})
}
resource "aws_iam_role_policy" "bedrock_invoke" {
role = aws_iam_role.lambda_bedrock.id
policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Effect = "Allow"
Action = ["bedrock:InvokeModel", "bedrock:InvokeModelWithResponseStream"]
Resource = "arn:aws:bedrock:ap-northeast-1::foundation-model/anthropic.claude-3-5-haiku*"
}]
})
}
resource "aws_lambda_function" "rag_handler" {
filename = "lambda.zip"
function_name = "piperag-handler"
role = aws_iam_role.lambda_bedrock.arn
handler = "index.handler"
runtime = "python3.12"
timeout = 60
memory_size = 1024
environment {
variables = {
BEDROCK_MODEL_ID = "anthropic.claude-3-5-haiku-20241022-v1:0"
OPENSEARCH_ENDPOINT = aws_opensearchserverless_collection.vectors.collection_endpoint
}
}
}
resource "aws_dynamodb_table" "cache" {
name = "piperag-cache"
billing_mode = "PAY_PER_REQUEST"
hash_key = "query_hash"
attribute {
name = "query_hash"
type = "S"
}
ttl {
attribute_name = "expire_at"
enabled = true
}
}
運用・監視設定
CloudWatch Logs Insights クエリ:
1
2
3
4
5
6
fields @timestamp, retrieval_latency_ms, generation_latency_ms, total_latency_ms
| stats avg(retrieval_latency_ms) as avg_retrieval,
avg(generation_latency_ms) as avg_generation,
pct(total_latency_ms, 95) as p95_total
by bin(5m)
| filter total_latency_ms > 5000
CloudWatch アラーム設定:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
import boto3
cloudwatch = boto3.client('cloudwatch')
cloudwatch.put_metric_alarm(
AlarmName='piperag-latency-spike',
ComparisonOperator='GreaterThanThreshold',
EvaluationPeriods=2,
MetricName='Duration',
Namespace='AWS/Lambda',
Period=300,
Statistic='Average',
Threshold=30000,
AlarmDescription='PipeRAG Lambda平均実行時間が30秒超過'
)
コスト最適化チェックリスト
- ~100 req/日 → Lambda + Bedrock (Serverless) - $50-150/月
- ~1000 req/日 → ECS Fargate + Bedrock (Hybrid) - $300-800/月
- 10000+ req/日 → EKS + Spot Instances (Container) - $2,000-5,000/月
- OpenSearch Serverless: アイドル時自動スケールダウン
- Bedrock Batch API: 50%割引活用(非リアルタイム処理)
- Prompt Caching: 30-90%削減(システムプロンプト固定)
- DynamoDB TTL: 古いキャッシュの自動削除
- AWS Budgets: 月額予算設定(80%で警告)
実験結果(Results)
パープレキシティ(生成品質)
著者らは論文Figure 5で、PipeRAGが標準Retroと比較して同等以上の生成品質を達成することを報告している。特に、短い検索インターバル($m’ \leq 32$)を使用したPipeRAGは、検索頻度の向上により全データセットで標準Retro($m = 64$)よりも低いパープレキシティを達成したとしている。
レイテンシ・品質のパレートフロンティア
論文Figure 6より、著者らが報告した主要な結果は以下の通りである:
| 構成 | Wikipediaレイテンシ | パープレキシティ |
|---|---|---|
| Retro(ベースライン) | 26.78秒 | 12.53 |
| PipeRAG(高速化重視) | 10.34秒 | 15.78 |
| PipeRAG(品質重視) | 26.78秒 | 11.60 |
(論文Table 1より)
- 高速化重視: 同等パープレキシティで最大2.6倍の高速化
- 品質重視: 同等レイテンシでパープレキシティを0.93ポイント改善
アブレーションスタディ
論文Figure 8では、柔軟な検索インターバルのみを導入した「Retro+」との比較が報告されている。PipeRAGはRetro+と比較して一貫して低いレイテンシを達成しており、パイプライン並列化がPipeRAGの性能向上において不可欠な要素であることが示されている。
実運用への応用(Practical Applications)
PipeRAGの手法は、以下のような実運用シナリオに応用可能である:
- リアルタイムRAGチャットボット: 検索と生成の並列化により、ユーザーの体感待ち時間を大幅に短縮。LCELの
RunnableParallelと組み合わせることで、マルチソース検索+パイプライン並列化の多層最適化が実現可能 - 大規模ドキュメント検索: 数十億チャンク規模のナレッジベースでの検索レイテンシ削減
- コスト最適化: GPU/CPUの稼働率向上により、同一ハードウェアでのスループットが向上し、推論コストが削減される
制約と限界: PipeRAGはRetroアーキテクチャに基づいており、一般的なRAGパイプライン(LangChain + ベクトルDB等)への直接適用にはアーキテクチャの改変が必要である。ただし、パイプライン並列化の設計思想は汎用的に応用可能である。
関連研究(Related Work)
- Retro (Borgeaud et al., 2022): PipeRAGのベースとなる検索拡張言語モデル。固定インターバルでの逐次検索を行う
- RAGCache (Jin et al., 2024): RAGの中間結果をキャッシュすることでレイテンシを削減。PipeRAGの並列化とは相補的なアプローチ
- RAGO (Jiang et al., 2025): RAGサービングのシステムレベル最適化。タスク配置とバッチングポリシーの最適化でQPSを2倍に向上。PipeRAGとは異なるレベル(サービング層 vs. モデル層)での最適化
まとめと今後の展望
PipeRAGは、RAGシステムにおける検索と生成のパイプライン並列化を実現し、品質を維持しながら最大2.6倍の高速化を達成した研究である。著者らが提案したStale Queryメカニズム、柔軟な検索インターバル、自動性能モデルの3つのコンポーネントは、それぞれ独立して活用可能な設計となっている。LCELのようなアプリケーション層の並列化と組み合わせることで、多層的なレイテンシ最適化が期待される。
参考文献
- arXiv: https://arxiv.org/abs/2403.05676
- KDD 2025: https://dl.acm.org/doi/10.1145/3690624.3709194
- Related Zenn article: https://zenn.dev/0h_n0/articles/a5be5c172a5a99