本記事は LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering (arXiv:2511.13998) の解説記事です。 論文概要(Abstract) LoCoBench-Agentは、長文コンテキストソフトウェア工学における対話型LLMエージェントを評価す...
本記事は arXiv:2410.09713 の解説記事です。 論文概要(Abstract) Chen, Yuan, Qian, Yang, Liu(2024)は、LLMベースのマルチエージェントシステム(MAS)の効果(性能)と効率(トークンコスト)を同時に最適化するフレームワーク「Optima」を提案している。プロンプトエンジニアリングに頼るのではなく、エージェントをファインチューニン...
本記事は https://arxiv.org/abs/2409.04927 の解説記事です。 論文概要(Abstract) LLM-based Automated Code Review(ACR)は、コードレビューの自動化をLLMで実現しようとする研究分野である。本論文は、14のLLMモデルを8つのコードレビューデータセットで体系的に評価し、zero-shotおよびone-shotの2シ...
本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks (arXiv:2601.06007) の解説記事です。 論文概要(Abstract) 本論文は、プロンプトキャッシュ(Prompt Caching)がマルチターンエージェントタスクにおいてAPIコストと応答レ...
本記事は https://arxiv.org/abs/2501.18160 の解説記事です。 論文概要(Abstract) RepoAuditは、リポジトリ全体を対象にバグ検出を自律的に行うLLMエージェントフレームワークである。従来のLLMベースコード解析が単一関数や限定的なコンテキストに留まっていたのに対し、RepoAuditはエージェントメモリを備えたオンデマンド探索により、手続き...
本記事は arXiv:2411.02393 の解説記事です。 論文概要(Abstract) Xu, Liu, Shi, Zhang(2024)は、金融質問応答(QA)のためのマルチエージェントシステム「GraphRAG-FinQA」を提案している。知識グラフ(KG)とRAGを統合し、KGエージェント・ベクトルエージェント・テーブルエージェント・推論エージェントの4エージェントチームで構成...
本記事は A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era (arXiv:2602.13377) の解説記事です。 論文概要(Abstract) 本サーベイは、2015年から2025年にかけて発表されたコードレビュー研究99件(Pre-LLM時代58件、LLM時代41件)を...
本記事は arXiv:2503.08175 の解説記事です。 論文概要(Abstract) Weng, Zhang, Cheng, Liu, Shi(2025)は、LLMベースのマルチエージェントシステム(MAS)において、モノリシックな単一スーパーバイザーをドメイン特化スーパーバイザー群に分解し、それらを階層的に集約するフレームワーク「Nexus」を提案している。従来のMASが抱える「...
本記事は https://arxiv.org/abs/2502.12648 の解説記事です。 論文概要(Abstract) CodeReviewBenchは、LLMによる自動コードレビュー能力を4つの独立した評価軸で包括的に測定するベンチマークである。従来のベンチマークが単一タスクに偏っていた問題を指摘し、5言語・1,019例のデータセットに対し16モデルを評価、各モデルの得意領域と限界...
本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。 論文概要(Abstract) LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...