📄 論文解説: GraphRAG-FinQA — 知識グラフ×マルチエージェントチームによる金融質問応答

本記事は arXiv:2411.02393 の解説記事です。論文概要（Abstract） Xu, Liu, Shi, Zhang（2024）は、金融質問応答（QA）のためのマルチエージェントシステム「GraphRAG-FinQA」を提案している。知識グラフ（KG）とRAGを統合し、KGエージェント・ベクトルエージェント・テーブルエージェント・推論エージェントの4エージェントチームで構成...

22/02/2026 blog paper

multi-agent RAG knowledge-graph +3

✍️ サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析

本記事は A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era (arXiv:2602.13377) の解説記事です。論文概要（Abstract）本サーベイは、2015年から2025年にかけて発表されたコードレビュー研究99件（Pre-LLM時代58件、LLM時代41件）を...

22/02/2026 blog paper

code-review LLM benchmark +5

📄 論文解説: Nexus — ドメイン特化スーパーバイザーの専門化と階層集約によるマルチエージェントシステム

本記事は arXiv:2503.08175 の解説記事です。論文概要（Abstract） Weng, Zhang, Cheng, Liu, Shi（2025）は、LLMベースのマルチエージェントシステム（MAS）において、モノリシックな単一スーパーバイザーをドメイン特化スーパーバイザー群に分解し、それらを階層的に集約するフレームワーク「Nexus」を提案している。従来のMASが抱える「...

22/02/2026 blog paper

multi-agent supervisor LLM +3

📄 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク

本記事は https://arxiv.org/abs/2502.12648 の解説記事です。論文概要（Abstract） CodeReviewBenchは、LLMによる自動コードレビュー能力を4つの独立した評価軸で包括的に測定するベンチマークである。従来のベンチマークが単一タスクに偏っていた問題を指摘し、5言語・1,019例のデータセットに対し16モデルを評価、各モデルの得意領域と限界...

22/02/2026 blog paper

code-review LLM benchmark +2

📄 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価

本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。論文概要（Abstract） LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...

22/02/2026 blog paper

long-context LLM code-review +5

📄 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows

本記事は arXiv:2502.12561 の解説記事です。論文概要（Abstract）マルチエージェントワークフロー（MAW）はLLMの複雑タスク性能を向上させる手法として広く採用されているが、MAWが単一エージェントワークフロー（SAW）をいつ・なぜ上回るかの理論的基盤は欠如していた。Yang, Wei, Liang（2025）は、情報理論における「集中度（concentrati...

22/02/2026 blog paper

multi-agent LLM workflow +3

📄 NeurIPS 2023論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

論文概要（Abstract）本記事は arXiv:2306.05685 の解説記事です。 Zheng らは、LLMの出力品質を人間評価に代わってLLM自身が評価する「LLM-as-a-Judge」手法を提案し、その信頼性を体系的に検証した。80問のマルチターンベンチマーク MT-Bench と、30,000件以上の人間投票を集めたクラウドソーシングプラットフォーム Chatbot Ar...

22/02/2026 blog paper

LLM-as-Judge evaluation MT-Bench +6

✍️ LangChain公式解説: 知識グラフ構築×ハイブリッド検索でRAG精度を向上させる実装パターン

ブログ概要（Summary） LangChainの公式ブログでは、非構造化テキストからLLMを用いて知識グラフ（KG）を自動構築し、ベクトル検索＋キーワード検索＋グラフトラバーサルの3系統ハイブリッド検索でRAG精度を向上させる実装パターンが紹介されている。Neo4jをバックエンドとし、LLMGraphTransformerによるエンティティ・関係抽出からNeo4jVectorによるベクト...

22/02/2026 blog tech_blog

LangChain knowledge-graph Neo4j +3

📄 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する

論文概要（Abstract）本記事は arXiv:2407.01203 Agentless の解説記事です。 Agentlessは、複雑なエージェントアーキテクチャ（長いアクショントラジェクトリ、意思決定ループ、多数のツール使用）を排除し、局所化（localization）→修正（repair）の2段階のみでGitHub issueを自動解決するアプローチである。著者らは、SWE-be...

22/02/2026 blog paper

coding-agent bug-fix localization +3

✍️ NVIDIA解説: NeMo Agent Toolkitで構築するテスト駆動コーディングエージェント — LangGraph×推論モデル×サンドボックス実行

ブログ概要（Summary）本記事は NVIDIA Developer Blog: Improve AI Code Generation Using NVIDIA NeMo Agent Toolkit の解説記事です。 NVIDIAのNeMo Agent Toolkit（AgentIQ）は、テスト駆動のコーディングエージェントをLangGraphベースで構築するためのフレームワークであ...

22/02/2026 blog tech_blog

NVIDIA NeMo LangGraph +4

1
...
110
111
112
...
138
111 / 138