Home
0h-n0 TechBLog
キャンセル

📄 論文解説: RAGCache — RAG向けKVキャッシュでTTFTを最大4倍高速化

本記事は RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation の解説記事です。 論文概要(Abstract) RAGCache は、RAG(Retrieval-Augmented Generation)システムにおける検索結果(知識チャンク)のKVキャッシュを事前計算・階層的に管理するフレームワ...

📄 論文解説: ToolLLM — 16,000+ APIをマスターするLLMの学習フレームワーク

本記事は arXiv:2307.16789 の解説記事です。 論文概要(Abstract) Qin, Liang, Ye ら (2023) は、LLMに大量のReal-world APIを使いこなさせるための学習フレームワーク ToolLLM を提案している。RapidAPIプラットフォームから16,000以上のRESTful APIを収集し、49,000件の命令-API呼び出しペアから...

📄 OSDI 2024論文解説: Sarathi-Serve — Chunked-Prefillsで実現するLLM推論のスループット・レイテンシ最適化

本記事は Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve (arXiv:2403.02310, OSDI 2024) の解説記事です。 論文概要(Abstract) Sarathi-Serveは、LLM推論サービングにおけるスループットとレイテンシのトレードオフを解消するスケジューラである。著者...

📄 COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQLフレームワーク

本記事は COLING 2025 “MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL” の解説記事です。 論文概要(Abstract) Text-to-SQLタスクにおいて、大規模データベーススキーマ(数十〜数百テーブル)への対応と複雑なクエリの正確なSQL生成は依然として困難な課題である。MAC-SQL(Mul...