本記事は Corrective Retrieval Augmented Generation (CRAG) (Yan et al., 2024) の解説記事です。 論文概要(Abstract) 従来のRAGシステムは、検索されたドキュメントの品質を検証せずにそのまま生成モデルに渡すため、無関係なドキュメントが混入するとハルシネーションや不正確な回答が発生しやすい。著者らは、検索結果の品質...
本記事は Unlocking the Power of Memory: Announcing General Availability of Semantic Kernel’s Memory Packages(Wes Steyn, Eduard van Valkenburg, 2024年11月25日)の解説記事です。 ブログ概要(Summary) Microsoftは2024年11月25...
本記事は AWS公式ブログ: Improve speed and reduce cost for generative AI workloads with a persistent semantic cache in Amazon MemoryDB(2024年公開)の解説記事です。 ブログ概要(Summary) AWSはAmazon MemoryDBのベクトル検索機能(2024年7月導入...
本記事は Introducing Contextual Retrieval の解説記事です。 ブログ概要(Summary) Anthropicは2024年9月、RAGシステムの検索精度を向上させるContextual Retrieval手法を発表した。従来のRAGでは、文書をチャンクに分割する際にコンテキスト(どの文書の、どの部分に位置するか)が失われ、検索精度が低下する問題があった。C...
本記事は RAGAS: Automated Evaluation of Retrieval Augmented Generation (Es et al., 2023) の解説記事です。 論文概要(Abstract) Retrieval Augmented Generation(RAG)システムの品質評価は、検索コンポーネントと生成コンポーネントの両方を考慮する必要があり、従来の手法では...
本記事は arXiv:2311.04934(Gim et al., MLSys 2024)の解説記事です。 論文概要(Abstract) LLM推論のレイテンシはプロンプト長に大きく依存する。著者らはPrompt Cacheを提案し、頻出するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメント等)のAttention状態を事前計算・保存し、プロンプト間で再利用する...
本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMにおけるKVキャッシュ再利用の新しい最適化機能を発表した。従来のLRU(Least Recently Used)ベースのキャッシュ退避に加え、...
本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented LLMs through Question Complexity(Jeong et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、クエリの複雑度に応じてRAGの検索戦略を動的に切り替えるAdaptive-RAGフレームワークを提案している。著者...
本記事は arXiv:2401.07119 Curator: Efficient Indexing for Multi-Tenant Vector Databases(2024年1月公開)の解説記事です。 論文概要(Abstract) Curatorは、マルチテナント・ベクトルデータベースにおけるインデキシングの品質と効率のトレードオフを解決するアプローチを提案している。著者らは、テナン...
本記事は arXiv:2308.15022(Wang et al., 2023、Neurocomputing採録)の解説記事です。 論文概要(Abstract) LLMは動的な対話を生成できるが、長期にわたる会話の一貫性を維持することが困難である。著者らは再帰的要約(Recursive Summarization)手法を提案し、LLMに小さな対話コンテキストを段階的に記憶させ、前のメモリ...