本記事は ICML 2024 “KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) KIVIは、LLM推論時のKVキャッシュを2bitに量子化するチューニング不要...
本記事は arXiv:2411.09054 “Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving” の解説記事です。論文の主張・実験結果は著者ら(Moonshot AI)によるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) Mooncakeは、...
本記事は NVIDIA Developer Blog: “Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM” の解説記事です。ブログの主張・実測値はNVIDIAによるものであり、本記事の著者が独自に検証を行ったものではありません。 ブログ概要(Summary) NVIDIAはTensorRT-L...
本記事は arXiv:2412.08734 “CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。本論文はEuroSys 2025に採択されている。 論文...
本記事は arXiv:2411.19708 “Marconi: Prefix Caching for the Era of Hybrid LLMs” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) Marconiは、Attention層とSSM(State Space Model)層...
本記事は Gorilla: Large Language Model Connected with Massive APIs (arXiv:2305.15334) の解説記事です。 論文概要(Abstract) Gorillaは、UC Berkeleyが2023年5月に発表したLLMベースのAPIコール生成モデルである。著者らは、APIドキュメントをretrieverで動的に取得しながら...
本記事は ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789) の解説記事です。 論文概要(Abstract) ToolLLMは、清華大学のOpenBMBチームが2023年7月に発表したフレームワークであり、LLMが16,000以上の実世界APIを使い...
本記事は AvaTaR: Optimizing LLM Agents for Tool Usage via Contrastive Reasoning (arXiv:2406.11200) の解説記事です。 論文概要(Abstract) AvaTaR(Automated and Versatile Agent Training via Autonomous Reasoning)は、Sta...
本記事は ToolACE (arXiv:2409.12929) の解説記事です。 論文概要(Abstract) ToolACEは、Salesforce Researchが2024年9月に発表したLLMのFunction Calling能力を向上させるためのフレームワークである。著者らは、多様な合成データ生成パイプラインとself-consistencyに基づくデータ品質フィルタリングを組...
本記事は Code execution with MCP: building more efficient AI agents(Anthropic Engineering Blog)の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームは、Model Context Protocol(MCP)におけるコード実行パターンを提案し、従来のツール直接呼び出し...