論文概要(Abstract) 本記事は Enhancing Model Context Protocol (MCP) with Context-Aware Server Collaboration の解説記事です。 著者らは、Model Context Protocol(MCP)の拡張として Context-Aware MCP(CA-MCP)を提案している。従来のMCPでは中央のLLMが...
本記事は SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering の解説記事です。 論文概要(Abstract) 言語モデル(LM)エージェントによるソフトウェアエンジニアリングタスクの自動化において、エージェントがコンピュータ環境と対話するインタフェースの設計が性能に大きな影響を与えることを示...
論文概要(Abstract) 本記事は LLM-based Agents for Automated Bug Fixing: How Far Are We? の解説記事です。 この論文は、LLMベースの6種のバグ修正エージェントをSWE-bench Lite(300件のGitHub Issue)上で体系的に評価した実証研究です。著者らは、解決率(Resolved Rate)、コスト効率、...
本記事は Evaluating AGENTS.md: Are Repository-Level Context Files Helpful for Coding Agents? の解説記事です。 論文概要(Abstract) AGENTS.mdやCLAUDE.mdといったリポジトリレベルのコンテキストファイルは、コーディングエージェントをリポジトリに適応させる手段として広く普及している。...
論文概要(Abstract) 本記事は On the Impact of AGENTS.md Files on the Efficiency of AI Coding Agents の解説記事です。 AIコーディングエージェント(Codex、Claude Code等)がソフトウェアリポジトリに自律的にコントリビュートする場面が増加する中、リポジトリレベルの設定ファイルがエージェントの運用...
論文概要 本記事は、Liu et al. (2024) による論文「Cost-Efficient Large Language Model Serving for Multi-turn Conversations」(arXiv:2409.08239)の解説記事です。ConvKVは、マルチターン会話におけるLLM推論コストの増大問題に対し、会話ターン単位のセグメンテーションと3因子重要度スコ...
ブログ概要 本記事はAWS公式ブログ「Optimize LLM response costs and latency with effective caching」の解説記事です。AWSはLLMアプリケーションのコスト・レイテンシ課題に対し、プロンプトキャッシュ、リクエスト応答キャッシュ、セマンティックキャッシュの3種を組み合わせた多層キャッシュ戦略を提唱しています。ブログでは、Amazo...
本記事は SGLang: Efficiently Executing Structured Language Model Programs の解説記事です。 論文概要(Abstract) SGLangは、LLMの構造化プログラム(複数のLLM呼び出しを組み合わせた処理パイプライン)を効率的に実行するためのシステムである。著者らはフロントエンドとして構造化生成のためのドメイン固有言語を、バ...
論文概要(Abstract) 本記事は、Kwon et al. による論文 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。 LLMの高スループットサービングにはリクエストのバッチ処理が不可欠であるが、既存システムはKVキャッシュの静的連続メモリ割り当てに...
本記事は、Gim et al. (2024) による論文「Prompt Cache: Modular Attention Reuse for Low-Latency Inference」の解説記事です。LLM推論において、プロンプト間で共通するテキストセグメントのKVキャッシュを事前計算・再利用し、Time To First Token (TTFT) を削減する手法を、数式・実装・実験結果を...