- 📄 MLSys 2024論文解説: Prompt Cache — モジュール式Attentionステート再利用による低レイテンシLLM推論
- ✍️ Inside the LLM Call: OpenTelemetry GenAI Semantic Conventionsによるエージェントオブザーバビリティの実践
- ✍️ Checkpoints Are Not Durable Execution: LangGraph・CrewAI・Google ADKが本番エージェントワークフローで不足する理由
- 📄 論文解説: トレースベース品質保証フレームワーク — エージェントAIオーケストレーションの契約・テスト・ガバナンス
- ✍️ AG2 OpenTelemetry Tracing: マルチエージェントシステムの完全なオブザーバビリティを実現する
論文概要 本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference(MLSys 2024)の解説記事です。 著者らは、LLMの推論においてプロンプト間で共通するテキストセグメント(システムメッセージ、プロンプトテンプレート、コンテキスト文書など)のAttentionステート(KVキャッシュ)を事前計算・保存し...