Home
0h-n0 TechBLog
キャンセル

✍️ NVIDIA TensorRT-LLM: KVキャッシュ再利用最適化による推論高速化の実装解説

本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMにおけるKVキャッシュ再利用の新しい最適化機能を発表した。従来のLRU(Least Recently Used)ベースのキャッシュ退避に加え、...

📄 論文解説: Adaptive-RAG — クエリ複雑度に基づく検索戦略の動的切り替えによるRAGコスト最適化

本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented LLMs through Question Complexity(Jeong et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、クエリの複雑度に応じてRAGの検索戦略を動的に切り替えるAdaptive-RAGフレームワークを提案している。著者...

📄 論文解説: Curator — マルチテナント・ベクトルDBの効率的インデキシング

本記事は arXiv:2401.07119 Curator: Efficient Indexing for Multi-Tenant Vector Databases(2024年1月公開)の解説記事です。 論文概要(Abstract) Curatorは、マルチテナント・ベクトルデータベースにおけるインデキシングの品質と効率のトレードオフを解決するアプローチを提案している。著者らは、テナン...

📄 論文解説: Recursively Summarizing Enables Long-Term Dialogue Memory in LLMs

本記事は arXiv:2308.15022(Wang et al., 2023、Neurocomputing採録)の解説記事です。 論文概要(Abstract) LLMは動的な対話を生成できるが、長期にわたる会話の一貫性を維持することが困難である。著者らは再帰的要約(Recursive Summarization)手法を提案し、LLMに小さな対話コンテキストを段階的に記憶させ、前のメモリ...

✍️ Redis AI Agent Memory: ステートフルAIシステムのためのメモリアーキテクチャ解説

本記事は Redis公式ブログ: AI agent memory: types, architecture & implementation(Jim Allen Wallace, 2026年2月3日)の解説記事です。 ブログ概要(Summary) LLMは本質的にステートレスであり、リクエスト間で情報を保持しない。本番のAIエージェントを構築するには、短期メモリ(セッション内コン...

📄 論文解説: Lance — 適応的構造エンコーディングによる列指向ストレージの高速ランダムアクセス

本記事は arXiv:2504.15247 Lance: Efficient Random Access in Columnar Storage through Adaptive Structural Encodings(2025年4月公開)の解説記事です。 論文概要(Abstract) Lanceは、現代のAI/MLワークロード向けに設計されたオープンソースの列指向ファイルフォーマット...

📄 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク

本記事は RouteLLM: Learning to Route LLMs with Preference Data (Ong et al., 2024, LMSYS) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)のAPIコストと応答品質はトレードオフの関係にある。著者らは、クエリの難易度に応じて高品質・高コストの強モデル(例: GPT-4)と低コストの弱モ...

📄 論文解説: LiquidANN — 階層型ストレージによるコスト効率的ベクトル検索

本記事は arXiv:2406.02957 LiquidANN: Cost-Efficient Vector Search with Tiered Storage(2024年6月公開)の解説記事です。 論文概要(Abstract) LiquidANNは、ベクトル検索のストレージコストを5-10倍削減するために、DRAM・NVMe SSD・オブジェクトストレージ(S3互換)の3層ストレージ...