Home
0h-n0 TechBLog
キャンセル

📄 論文解説: CRAG — 検索品質を自己評価・修正するCorrective RAG

本記事は Corrective Retrieval Augmented Generation (CRAG) (Yan et al., 2024) の解説記事です。 論文概要(Abstract) 従来のRAGシステムは、検索されたドキュメントの品質を検証せずにそのまま生成モデルに渡すため、無関係なドキュメントが混入するとハルシネーションや不正確な回答が発生しやすい。著者らは、検索結果の品質...

✍️ Anthropic: Contextual Retrieval — RAG検索精度を最大67%改善するコンテキスト付与手法

本記事は Introducing Contextual Retrieval の解説記事です。 ブログ概要(Summary) Anthropicは2024年9月、RAGシステムの検索精度を向上させるContextual Retrieval手法を発表した。従来のRAGでは、文書をチャンクに分割する際にコンテキスト(どの文書の、どの部分に位置するか)が失われ、検索精度が低下する問題があった。C...

📄 論文解説: RAGAS — RAGシステムの自動評価フレームワーク

本記事は RAGAS: Automated Evaluation of Retrieval Augmented Generation (Es et al., 2023) の解説記事です。 論文概要(Abstract) Retrieval Augmented Generation(RAG)システムの品質評価は、検索コンポーネントと生成コンポーネントの両方を考慮する必要があり、従来の手法では...

📄 MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference

本記事は arXiv:2311.04934(Gim et al., MLSys 2024)の解説記事です。 論文概要(Abstract) LLM推論のレイテンシはプロンプト長に大きく依存する。著者らはPrompt Cacheを提案し、頻出するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメント等)のAttention状態を事前計算・保存し、プロンプト間で再利用する...

✍️ NVIDIA TensorRT-LLM: KVキャッシュ再利用最適化による推論高速化の実装解説

本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMにおけるKVキャッシュ再利用の新しい最適化機能を発表した。従来のLRU(Least Recently Used)ベースのキャッシュ退避に加え、...

📄 論文解説: Adaptive-RAG — クエリ複雑度に基づく検索戦略の動的切り替えによるRAGコスト最適化

本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented LLMs through Question Complexity(Jeong et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、クエリの複雑度に応じてRAGの検索戦略を動的に切り替えるAdaptive-RAGフレームワークを提案している。著者...

📄 論文解説: Curator — マルチテナント・ベクトルDBの効率的インデキシング

本記事は arXiv:2401.07119 Curator: Efficient Indexing for Multi-Tenant Vector Databases(2024年1月公開)の解説記事です。 論文概要(Abstract) Curatorは、マルチテナント・ベクトルデータベースにおけるインデキシングの品質と効率のトレードオフを解決するアプローチを提案している。著者らは、テナン...

📄 論文解説: Recursively Summarizing Enables Long-Term Dialogue Memory in LLMs

本記事は arXiv:2308.15022(Wang et al., 2023、Neurocomputing採録)の解説記事です。 論文概要(Abstract) LLMは動的な対話を生成できるが、長期にわたる会話の一貫性を維持することが困難である。著者らは再帰的要約(Recursive Summarization)手法を提案し、LLMに小さな対話コンテキストを段階的に記憶させ、前のメモリ...