本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMにおけるKVキャッシュ再利用の新しい最適化機能を発表した。従来のLRU(Least Recently Used)ベースのキャッシュ退避に加え、...
本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented LLMs through Question Complexity(Jeong et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、クエリの複雑度に応じてRAGの検索戦略を動的に切り替えるAdaptive-RAGフレームワークを提案している。著者...
本記事は arXiv:2401.07119 Curator: Efficient Indexing for Multi-Tenant Vector Databases(2024年1月公開)の解説記事です。 論文概要(Abstract) Curatorは、マルチテナント・ベクトルデータベースにおけるインデキシングの品質と効率のトレードオフを解決するアプローチを提案している。著者らは、テナン...
本記事は arXiv:2308.15022(Wang et al., 2023、Neurocomputing採録)の解説記事です。 論文概要(Abstract) LLMは動的な対話を生成できるが、長期にわたる会話の一貫性を維持することが困難である。著者らは再帰的要約(Recursive Summarization)手法を提案し、LLMに小さな対話コンテキストを段階的に記憶させ、前のメモリ...
本記事は FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance (Chen et al., 2023, Stanford University) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)のAPI利用にはトークン単位の課金が発生し、...
本記事は Redis公式ブログ: AI agent memory: types, architecture & implementation(Jim Allen Wallace, 2026年2月3日)の解説記事です。 ブログ概要(Summary) LLMは本質的にステートレスであり、リクエスト間で情報を保持しない。本番のAIエージェントを構築するには、短期メモリ(セッション内コン...
本記事は CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion の解説記事です。 論文概要(Abstract) CacheBlendは、RAG(Retrieval-Augmented Generation)システムにおけるLLM推論の高速化手法である。従来のRAGでは、検索され...
本記事は arXiv:2504.15247 Lance: Efficient Random Access in Columnar Storage through Adaptive Structural Encodings(2025年4月公開)の解説記事です。 論文概要(Abstract) Lanceは、現代のAI/MLワークロード向けに設計されたオープンソースの列指向ファイルフォーマット...
本記事は RouteLLM: Learning to Route LLMs with Preference Data (Ong et al., 2024, LMSYS) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)のAPIコストと応答品質はトレードオフの関係にある。著者らは、クエリの難易度に応じて高品質・高コストの強モデル(例: GPT-4)と低コストの弱モ...
本記事は arXiv:2406.02957 LiquidANN: Cost-Efficient Vector Search with Tiered Storage(2024年6月公開)の解説記事です。 論文概要(Abstract) LiquidANNは、ベクトル検索のストレージコストを5-10倍削減するために、DRAM・NVMe SSD・オブジェクトストレージ(S3互換)の3層ストレージ...