論文概要(Abstract) LLMの推論時にメモリを大量に消費するKVキャッシュを、Attention分布の層間パターンに基づいて動的に圧縮する手法 PyramidKV を提案した論文です。著者らは、Transformerの低い層ではAttentionが広く分散し、高い層では少数の重要トークンに集中するという「Pyramidal Information Funneling(ピラミッド型情...
論文概要(Abstract) SqueezeAttentionは、LLM推論時のKVキャッシュを層方向(layer-wise)とトークン方向(sequence-wise)の2次元で管理する手法である。従来のKVキャッシュ圧縮手法がすべてのAttention層に一律のバジェットを割り当てていたのに対し、著者らはコサイン類似度による層重要度測定に基づいて各層に異なるKVバジェットを配分する。著...
論文概要(Abstract) CacheGenは、LLMの長いコンテキストを処理する際のKVキャッシュ転送を高速化するシステムである。KVキャッシュの再利用によりコンテキスト処理遅延を削減できるが、大きなKVテンソルをネットワーク越しにフェッチすると高い転送遅延が発生する。CacheGenは、KVキャッシュのチャネル・層ごとの分布特性を活用したカスタムテンソルエンコーダにより、KVキャッシ...
論文概要 本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention(SOSP 2023)の解説記事です。 LLMの推論サービングでは、リクエストごとに巨大なKVキャッシュが必要となり、そのサイズは動的に変化する。従来のシステムではメモリの断片化や重複確保により、バッチサイズが...
論文概要 本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference(MLSys 2024)の解説記事です。 著者らは、LLMの推論においてプロンプト間で共通するテキストセグメント(システムメッセージ、プロンプトテンプレート、コンテキスト文書など)のAttentionステート(KVキャッシュ)を事前計算・保存し...
本記事は Inside the LLM Call: GenAI Observability with OpenTelemetry の解説記事です。 この記事は Zenn記事: マルチエージェント通信のオブザーバビリティ設計:分散トレーシングと障害復旧の実装 の深掘りです。 ブログ概要(Summary) OpenTelemetry公式ブログのこの記事は、GenAI Semantic Co...
本記事は Checkpoints Are Not Durable Execution: Why LangGraph, CrewAI, Google ADK, and Others Fall Short for Production Agent Workflows の解説記事です。 この記事は Zenn記事: マルチエージェント通信のオブザーバビリティ設計:分散トレーシングと障害復旧の実装 ...
本記事は A Trace-Based Assurance Framework for Agentic AI Orchestration: Contracts, Testing, and Governance の解説記事です。 この記事は Zenn記事: マルチエージェント通信のオブザーバビリティ設計:分散トレーシングと障害復旧の実装 の深掘りです。 論文概要(Abstract) マルチ...
本記事は AG2 OpenTelemetry Tracing: Full Observability for Multi-Agent Systems の解説記事です。 この記事は Zenn記事: マルチエージェント通信のオブザーバビリティ設計:分散トレーシングと障害復旧の実装 の深掘りです。 ブログ概要(Summary) AG2(AutoGenの後継フレームワーク)は、2026年2月に...
本記事は AgentTrace: Causal Graph Tracing for Root Cause Analysis in Deployed Multi-Agent Systems の解説記事です。 この記事は Zenn記事: マルチエージェント通信のオブザーバビリティ設計:分散トレーシングと障害復旧の実装 の深掘りです。 論文概要(Abstract) マルチエージェントシステム...