Home
0h-n0 TechBLog
キャンセル

📄 ICML 2024論文解説: KIVI — チューニング不要の非対称2bit KVキャッシュ量子化

本記事は ICML 2024 “KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) KIVIは、LLM推論時のKVキャッシュを2bitに量子化するチューニング不要...

📄 論文解説: Mooncake — KVキャッシュ中心の分離型LLMサービングアーキテクチャ

本記事は arXiv:2411.09054 “Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving” の解説記事です。論文の主張・実験結果は著者ら(Moonshot AI)によるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) Mooncakeは、...

✍️ NVIDIAブログ解説: TensorRT-LLMにおけるKVキャッシュ再利用の新最適化

本記事は NVIDIA Developer Blog: “Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM” の解説記事です。ブログの主張・実測値はNVIDIAによるものであり、本記事の著者が独自に検証を行ったものではありません。 ブログ概要(Summary) NVIDIAはTensorRT-L...

📄 論文解説: CacheBlend — RAGワークロードにおけるKVキャッシュ再利用の新手法

本記事は arXiv:2412.08734 “CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。本論文はEuroSys 2025に採択されている。 論文...

📄 論文解説: Marconi — Hybrid LLM時代のPrefix Caching システム

本記事は arXiv:2411.19708 “Marconi: Prefix Caching for the Era of Hybrid LLMs” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) Marconiは、Attention層とSSM(State Space Model)層...

📄 論文解説: ToolACE — LLM Function Callingの精度を合成データで改善する

本記事は ToolACE (arXiv:2409.12929) の解説記事です。 論文概要(Abstract) ToolACEは、Salesforce Researchが2024年9月に発表したLLMのFunction Calling能力を向上させるためのフレームワークである。著者らは、多様な合成データ生成パイプラインとself-consistencyに基づくデータ品質フィルタリングを組...

✍️ Anthropicエンジニアリングブログ解説: Code execution with MCP — MCPコード実行パターンによるトークン効率化

本記事は Code execution with MCP: building more efficient AI agents(Anthropic Engineering Blog)の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームは、Model Context Protocol(MCP)におけるコード実行パターンを提案し、従来のツール直接呼び出し...