📄 論文解説: LoCoBench-Agent — 長文コンテキストソフトウェア工学における対話型LLMエージェントベンチマーク

本記事は LoCoBench-Agent: An Interactive Benchmark for LLM Agents in Long-Context Software Engineering (arXiv:2511.13998) の解説記事です。論文概要（Abstract） LoCoBench-Agentは、長文コンテキストソフトウェア工学における対話型LLMエージェントを評価す...

22/02/2026 blog paper

LLM-agent benchmark long-context +5

📄 論文解説: Optima — LLMベースマルチエージェントシステムの効果と効率を同時最適化するフレームワーク

本記事は arXiv:2410.09713 の解説記事です。論文概要（Abstract） Chen, Yuan, Qian, Yang, Liu（2024）は、LLMベースのマルチエージェントシステム（MAS）の効果（性能）と効率（トークンコスト）を同時に最適化するフレームワーク「Optima」を提案している。プロンプトエンジニアリングに頼るのではなく、エージェントをファインチューニン...

22/02/2026 blog paper

multi-agent LLM fine-tuning +3

📄 論文解説: LLM-based ACR — 14モデル×8データセットによる自動コードレビューの実証研究

本記事は https://arxiv.org/abs/2409.04927 の解説記事です。論文概要（Abstract） LLM-based Automated Code Review（ACR）は、コードレビューの自動化をLLMで実現しようとする研究分野である。本論文は、14のLLMモデルを8つのコードレビューデータセットで体系的に評価し、zero-shotおよびone-shotの2シ...

22/02/2026 blog paper

code-review LLM empirical-study +2

📄 論文解説: Don't Break the Cache — プロンプトキャッシュのエージェントタスクにおける体系的評価

本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks (arXiv:2601.06007) の解説記事です。論文概要（Abstract）本論文は、プロンプトキャッシュ（Prompt Caching）がマルチターンエージェントタスクにおいてAPIコストと応答レ...

22/02/2026 blog paper

prompt-caching LLM agent +4

📄 ICML 2025論文解説: RepoAudit — 自律型LLMエージェントによるリポジトリレベルコード監査

本記事は https://arxiv.org/abs/2501.18160 の解説記事です。論文概要（Abstract） RepoAuditは、リポジトリ全体を対象にバグ検出を自律的に行うLLMエージェントフレームワークである。従来のLLMベースコード解析が単一関数や限定的なコンテキストに留まっていたのに対し、RepoAuditはエージェントメモリを備えたオンデマンド探索により、手続き...

22/02/2026 blog paper

code-review LLM-agent code-audit +2

📄 論文解説: GraphRAG-FinQA — 知識グラフ×マルチエージェントチームによる金融質問応答

本記事は arXiv:2411.02393 の解説記事です。論文概要（Abstract） Xu, Liu, Shi, Zhang（2024）は、金融質問応答（QA）のためのマルチエージェントシステム「GraphRAG-FinQA」を提案している。知識グラフ（KG）とRAGを統合し、KGエージェント・ベクトルエージェント・テーブルエージェント・推論エージェントの4エージェントチームで構成...

22/02/2026 blog paper

multi-agent RAG knowledge-graph +3

✍️ サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析

本記事は A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era (arXiv:2602.13377) の解説記事です。論文概要（Abstract）本サーベイは、2015年から2025年にかけて発表されたコードレビュー研究99件（Pre-LLM時代58件、LLM時代41件）を...

22/02/2026 blog paper

code-review LLM benchmark +5

📄 論文解説: Nexus — ドメイン特化スーパーバイザーの専門化と階層集約によるマルチエージェントシステム

本記事は arXiv:2503.08175 の解説記事です。論文概要（Abstract） Weng, Zhang, Cheng, Liu, Shi（2025）は、LLMベースのマルチエージェントシステム（MAS）において、モノリシックな単一スーパーバイザーをドメイン特化スーパーバイザー群に分解し、それらを階層的に集約するフレームワーク「Nexus」を提案している。従来のMASが抱える「...

22/02/2026 blog paper

multi-agent supervisor LLM +3

📄 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク

本記事は https://arxiv.org/abs/2502.12648 の解説記事です。論文概要（Abstract） CodeReviewBenchは、LLMによる自動コードレビュー能力を4つの独立した評価軸で包括的に測定するベンチマークである。従来のベンチマークが単一タスクに偏っていた問題を指摘し、5言語・1,019例のデータセットに対し16モデルを評価、各モデルの得意領域と限界...

22/02/2026 blog paper

code-review LLM benchmark +2

📄 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価

本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。論文概要（Abstract） LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...

22/02/2026 blog paper

long-context LLM code-review +5

1
...
113
114
115
...
141
114 / 141