ブログ概要(Summary) 本記事は AWS Machine Learning Blog: Build reliable AI agents with Amazon Bedrock AgentCore Evaluations の解説記事である。AgentCore Evaluationsは2026年3月31日にGA(一般提供)となったエージェント品質評価サービスであり、LLM-as-a-J...
本記事は On Agent Frameworks and Agent Observability(LangChain Blog, 2026年2月12日公開) の解説記事です。 ブログ概要(Summary) LangChainの共同創設者Harrison Chaseが「In the Loop」シリーズとして執筆した記事で、エージェントフレームワークの進化を3世代に分類し、オブザーバビリティ...
本記事は DebugBench: Evaluating Debugging Capability of Large Language Models(arXiv:2404.14619) の解説記事です。 論文概要(Abstract) DebugBenchは、LLMのコードデバッグ能力を体系的に評価するベンチマークである。4つのプログラミング言語(C++, Java, Python, Jav...
本記事は MINT: Evaluating LLMs in Multi-turn Interaction with Tools and Language Feedback(arXiv:2401.15077) の解説記事です。 論文概要(Abstract) MINTは、LLMがツール使用とフィードバックループを含むマルチターンインタラクションにおいてどの程度の能力を発揮するかを定量的に評価...
本記事は AgentMonitor: A Plug-and-Play Framework for Real-Time Evaluation, Modification, and Replanning of LLM Agents(arXiv:2405.14744) の解説記事です。 論文概要(Abstract) AgentMonitorは、LLMベースのマルチエージェントシステムに対して、...
本記事は Demystifying evals for AI agents(Anthropic Engineering Blog, 2026年1月9日公開) の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチーム(Mikaela Grace, Jeremy Hadfield, Rodrigo Olivares, Jiri De Jonghe)が、AIエ...
本記事は ICML 2024 “KIVI: A Tuning-Free Asymmetric 2bit Quantization for KV Cache” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) KIVIは、LLM推論時のKVキャッシュを2bitに量子化するチューニング不要...
本記事は arXiv:2411.09054 “Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving” の解説記事です。論文の主張・実験結果は著者ら(Moonshot AI)によるものであり、本記事の著者が独自に実験を行ったものではありません。 論文概要(Abstract) Mooncakeは、...
本記事は NVIDIA Developer Blog: “Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM” の解説記事です。ブログの主張・実測値はNVIDIAによるものであり、本記事の著者が独自に検証を行ったものではありません。 ブログ概要(Summary) NVIDIAはTensorRT-L...
本記事は arXiv:2412.08734 “CacheBlend: Fast Large Language Model Serving for RAG with Cached Knowledge Fusion” の解説記事です。論文の主張・実験結果は著者らによるものであり、本記事の著者が独自に実験を行ったものではありません。本論文はEuroSys 2025に採択されている。 論文...