- 📄 MLSys 2024論文解説: Prompt Cache — モジュール式Attentionステート再利用による低レイテンシLLM推論
- ✍️ Inside the LLM Call: OpenTelemetry GenAI Semantic Conventionsによるエージェントオブザーバビリティの実践
- ✍️ Checkpoints Are Not Durable Execution: LangGraph・CrewAI・Google ADKが本番エージェントワークフローで不足する理由
- 📄 論文解説: トレースベース品質保証フレームワーク — エージェントAIオーケストレーションの契約・テスト・ガバナンス
- ✍️ AG2 OpenTelemetry Tracing: マルチエージェントシステムの完全なオブザーバビリティを実現する
論文概要(Abstract) 本記事は https://arxiv.org/abs/2411.05276 の解説記事です。 GPT Semantic Cache(Regmi & Pun, 2024)は、LLM APIコールのコストとレイテンシを削減するためにセマンティック埋め込みベースのキャッシュ機構を提案している。ユーザクエリを埋め込みベクトルに変換し、Redis上のインメモリ...