本記事は arXiv:2411.02393 の解説記事です。 論文概要(Abstract) Xu, Liu, Shi, Zhang(2024)は、金融質問応答(QA)のためのマルチエージェントシステム「GraphRAG-FinQA」を提案している。知識グラフ(KG)とRAGを統合し、KGエージェント・ベクトルエージェント・テーブルエージェント・推論エージェントの4エージェントチームで構成...
本記事は A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era (arXiv:2602.13377) の解説記事です。 論文概要(Abstract) 本サーベイは、2015年から2025年にかけて発表されたコードレビュー研究99件(Pre-LLM時代58件、LLM時代41件)を...
本記事は arXiv:2503.08175 の解説記事です。 論文概要(Abstract) Weng, Zhang, Cheng, Liu, Shi(2025)は、LLMベースのマルチエージェントシステム(MAS)において、モノリシックな単一スーパーバイザーをドメイン特化スーパーバイザー群に分解し、それらを階層的に集約するフレームワーク「Nexus」を提案している。従来のMASが抱える「...
本記事は https://arxiv.org/abs/2502.12648 の解説記事です。 論文概要(Abstract) CodeReviewBenchは、LLMによる自動コードレビュー能力を4つの独立した評価軸で包括的に測定するベンチマークである。従来のベンチマークが単一タスクに偏っていた問題を指摘し、5言語・1,019例のデータセットに対し16モデルを評価、各モデルの得意領域と限界...
本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。 論文概要(Abstract) LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...
本記事は arXiv:2502.12561 の解説記事です。 論文概要(Abstract) マルチエージェントワークフロー(MAW)はLLMの複雑タスク性能を向上させる手法として広く採用されているが、MAWが単一エージェントワークフロー(SAW)をいつ・なぜ上回るかの理論的基盤は欠如していた。Yang, Wei, Liang(2025)は、情報理論における「集中度(concentrati...
論文概要(Abstract) 本記事は arXiv:2306.05685 の解説記事です。 Zheng らは、LLMの出力品質を人間評価に代わってLLM自身が評価する「LLM-as-a-Judge」手法を提案し、その信頼性を体系的に検証した。80問のマルチターンベンチマーク MT-Bench と、30,000件以上の人間投票を集めたクラウドソーシングプラットフォーム Chatbot Ar...
ブログ概要(Summary) LangChainの公式ブログでは、非構造化テキストからLLMを用いて知識グラフ(KG)を自動構築し、ベクトル検索+キーワード検索+グラフトラバーサルの3系統ハイブリッド検索でRAG精度を向上させる実装パターンが紹介されている。Neo4jをバックエンドとし、LLMGraphTransformerによるエンティティ・関係抽出からNeo4jVectorによるベクト...
論文概要(Abstract) 本記事は arXiv:2407.01203 Agentless の解説記事です。 Agentlessは、複雑なエージェントアーキテクチャ(長いアクショントラジェクトリ、意思決定ループ、多数のツール使用)を排除し、局所化(localization)→修正(repair)の2段階のみでGitHub issueを自動解決するアプローチである。著者らは、SWE-be...
ブログ概要(Summary) 本記事は NVIDIA Developer Blog: Improve AI Code Generation Using NVIDIA NeMo Agent Toolkit の解説記事です。 NVIDIAのNeMo Agent Toolkit(AgentIQ)は、テスト駆動のコーディングエージェントをLangGraphベースで構築するためのフレームワークであ...