Home
0h-n0 TechBLog
キャンセル

✍️ LangChain公式ブログ解説: エージェントフレームワークとエージェントオブザーバビリティの関係

本記事は On Agent Frameworks and Agent Observability(LangChain Blog, 2026年2月12日公開) の解説記事です。 ブログ概要(Summary) LangChainの共同創設者Harrison Chaseが「In the Loop」シリーズとして執筆した記事で、エージェントフレームワークの進化を3世代に分類し、オブザーバビリティ...

📄 論文解説: MINT — ツール使用とフィードバックを含むマルチターンLLM評価ベンチマーク

本記事は MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback(arXiv:2401.15077) の解説記事です。 論文概要(Abstract) MINTは、LLMがツール使用とフィードバックループを含むマルチターンインタラクションにおいてどの程度の能力を発揮するかを定量的に評価...

📄 ICML 2024論文解説: KIVI — チューニング不要の非対称2bit KVキャッシュ量子化

本記事は ICML 2024 “KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) KIVIは、LLM推論時のKVキャッシュを2bitに量子化するチューニング不要...

📄 論文解説: Mooncake — KVキャッシュ中心の分離型LLMサービングアーキテクチャ

本記事は arXiv:2411.09054 “Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving” の解説記事です。論文の主張・実験結果は著者ら(Moonshot AI)によるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) Mooncakeは、...

✍️ NVIDIAブログ解説: TensorRT-LLMにおけるKVキャッシュ再利用の新最適化

本記事は NVIDIA Developer Blog: “Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM” の解説記事です。ブログの主張・実測値はNVIDIAによるものであり、本記事の著者が独自に検証を行ったものではありません。 ブログ概要(Summary) NVIDIAはTensorRT-L...

📄 論文解説: CacheBlend — RAGワークロードにおけるKVキャッシュ再利用の新手法

本記事は arXiv:2412.08734 “CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。本論文はEuroSys 2025に採択されている。 論文...