Home
0h-n0 TechBLog
キャンセル

📄 ICML 2025論文解説: Auditing Prompt Caching in Language Model APIs — プロバイダのキャッシュ実装を統計的に暴く

本記事は Auditing Prompt Caching in Language Model APIs (ICML 2025) の解説記事です。 論文概要(Abstract) 本論文は、プロンプトキャッシュが広く導入されたLLM APIにおいて、キャッシュの存在がタイミングサイドチャネルを生み出し、ユーザー間のプライバシーリスクに繋がる可能性を実証的に検証した研究である。著者らは17のL...

✍️ NVIDIA TensorRT-LLM解説: KV Cache Reuse最適化 — 優先度制御とイベントAPIによる推論高速化

本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAが公開した本記事は、TensorRT-LLM推論フレームワークに新たに導入された2つのKVキャッシュ最適化機能を解説している。1つ目は優先度ベースのキャッシュエビクション(0-100の...

📄 論文解説: CachedAttention — マルチターン会話のKVキャッシュ階層管理によるコスト50%削減

本記事は CachedAttention: Cost-Efficient Large Language Model Serving for Multi-turn Conversations の解説記事です。 論文概要(Abstract) CachedAttentionは、マルチターン会話におけるKVキャッシュの再計算コストを削減するために、GPU HBMとCPUメモリの階層構造にKVキャ...

✍️ Claude Code設計思想解説: Prompt Caching Is Everything — キャッシュファーストなエージェント設計

本記事は Lessons from building Claude Code: Prompt caching is everything の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームが公開した本記事は、Claude Code(対話型AIコーディングエージェント)の設計において、プロンプトキャッシュがいかに中核的な設計原則であるかを解説している...

📄 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュ戦略の実証評価

本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks の解説記事です。 論文概要(Abstract) 本論文は、主要LLMプロバイダ(OpenAI、Anthropic、Google)が提供するプロンプトキャッシュ機能が、マルチターンのエージェントワークフローにお...

✍️ AG2解説: OpenTelemetryによるマルチエージェントシステムの完全可観測性

本記事は AG2 OpenTelemetry Tracing: Full Observability for Multi-Agent Systems (AG2 Blog, 2026-02-08) の解説記事です。 ブログ概要(Summary) AG2(AutoGen v0.4+)の公式ブログ記事で、フレームワークに組み込まれたOpenTelemetryトレーシング機能の設計と使用法を解説...

📄 論文解説: A Survey on Agent Communication Protocols

本記事は A Survey on Agent Communication Protocols (arXiv:2505.02279) の解説記事です。 論文概要(Abstract) 本論文は、LLMエージェント間通信のための4大プロトコル — Google A2A(Agent-to-Agent)、Anthropic MCP(Model Context Protocol)、IBM ACP(A...