Home
0h-n0 TechBLog
キャンセル

📄 論文解説: RAGAS — RAGシステムの自動評価フレームワーク

本記事は RAGAS: Automated Evaluation of Retrieval Augmented Generation (Es et al., 2023) の解説記事です。 論文概要(Abstract) Retrieval Augmented Generation(RAG)システムの品質評価は、検索コンポーネントと生成コンポーネントの両方を考慮する必要があり、従来の手法では...

📄 MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference

本記事は arXiv:2311.04934(Gim et al., MLSys 2024)の解説記事です。 論文概要(Abstract) LLM推論のレイテンシはプロンプト長に大きく依存する。著者らはPrompt Cacheを提案し、頻出するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメント等)のAttention状態を事前計算・保存し、プロンプト間で再利用する...

✍️ NVIDIA TensorRT-LLM: KVキャッシュ再利用最適化による推論高速化の実装解説

本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMにおけるKVキャッシュ再利用の新しい最適化機能を発表した。従来のLRU(Least Recently Used)ベースのキャッシュ退避に加え、...

📄 論文解説: Adaptive-RAG — クエリ複雑度に基づく検索戦略の動的切り替えによるRAGコスト最適化

本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented LLMs through Question Complexity(Jeong et al., 2024)の解説記事です。 論文概要(Abstract) 本論文は、クエリの複雑度に応じてRAGの検索戦略を動的に切り替えるAdaptive-RAGフレームワークを提案している。著者...

📄 論文解説: Curator — マルチテナント・ベクトルDBの効率的インデキシング

本記事は arXiv:2401.07119 Curator: Efficient Indexing for Multi-Tenant Vector Databases(2024年1月公開)の解説記事です。 論文概要(Abstract) Curatorは、マルチテナント・ベクトルデータベースにおけるインデキシングの品質と効率のトレードオフを解決するアプローチを提案している。著者らは、テナン...

📄 論文解説: Recursively Summarizing Enables Long-Term Dialogue Memory in LLMs

本記事は arXiv:2308.15022(Wang et al., 2023、Neurocomputing採録)の解説記事です。 論文概要(Abstract) LLMは動的な対話を生成できるが、長期にわたる会話の一貫性を維持することが困難である。著者らは再帰的要約(Recursive Summarization)手法を提案し、LLMに小さな対話コンテキストを段階的に記憶させ、前のメモリ...

✍️ Redis AI Agent Memory: ステートフルAIシステムのためのメモリアーキテクチャ解説

本記事は Redis公式ブログ: AI agent memory: types, architecture & implementation(Jim Allen Wallace, 2026年2月3日)の解説記事です。 ブログ概要(Summary) LLMは本質的にステートレスであり、リクエスト間で情報を保持しない。本番のAIエージェントを構築するには、短期メモリ(セッション内コン...

📄 論文解説: Lance — 適応的構造エンコーディングによる列指向ストレージの高速ランダムアクセス

本記事は arXiv:2504.15247 Lance: Efficient Random Access in Columnar Storage through Adaptive Structural Encodings(2025年4月公開)の解説記事です。 論文概要(Abstract) Lanceは、現代のAI/MLワークロード向けに設計されたオープンソースの列指向ファイルフォーマット...