Home
0h-n0 TechBLog
キャンセル

📄 論文解説: GraphRAG-FinQA — 知識グラフ×マルチエージェントチームによる金融質問応答

本記事は arXiv:2411.02393 の解説記事です。 論文概要(Abstract) Xu, Liu, Shi, Zhang(2024)は、金融質問応答(QA)のためのマルチエージェントシステム「GraphRAG-FinQA」を提案している。知識グラフ(KG)とRAGを統合し、KGエージェント・ベクトルエージェント・テーブルエージェント・推論エージェントの4エージェントチームで構成...

✍️ サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析

本記事は A Survey of Code Review Benchmarks and Evaluation Practices in Pre-LLM and LLM Era (arXiv:2602.13377) の解説記事です。 論文概要(Abstract) 本サーベイは、2015年から2025年にかけて発表されたコードレビュー研究99件(Pre-LLM時代58件、LLM時代41件)を...

📄 論文解説: Nexus — ドメイン特化スーパーバイザーの専門化と階層集約によるマルチエージェントシステム

本記事は arXiv:2503.08175 の解説記事です。 論文概要(Abstract) Weng, Zhang, Cheng, Liu, Shi(2025)は、LLMベースのマルチエージェントシステム(MAS)において、モノリシックな単一スーパーバイザーをドメイン特化スーパーバイザー群に分解し、それらを階層的に集約するフレームワーク「Nexus」を提案している。従来のMASが抱える「...

📄 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク

本記事は https://arxiv.org/abs/2502.12648 の解説記事です。 論文概要(Abstract) CodeReviewBenchは、LLMによる自動コードレビュー能力を4つの独立した評価軸で包括的に測定するベンチマークである。従来のベンチマークが単一タスクに偏っていた問題を指摘し、5言語・1,019例のデータセットに対し16モデルを評価、各モデルの得意領域と限界...

📄 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価

本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。 論文概要(Abstract) LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...

📄 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows

本記事は arXiv:2502.12561 の解説記事です。 論文概要(Abstract) マルチエージェントワークフロー(MAW)はLLMの複雑タスク性能を向上させる手法として広く採用されているが、MAWが単一エージェントワークフロー(SAW)をいつ・なぜ上回るかの理論的基盤は欠如していた。Yang, Wei, Liang(2025)は、情報理論における「集中度(concentrati...

📄 NeurIPS 2023論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

論文概要(Abstract) 本記事は arXiv:2306.05685 の解説記事です。 Zheng らは、LLMの出力品質を人間評価に代わってLLM自身が評価する「LLM-as-a-Judge」手法を提案し、その信頼性を体系的に検証した。80問のマルチターンベンチマーク MT-Bench と、30,000件以上の人間投票を集めたクラウドソーシングプラットフォーム Chatbot Ar...

✍️ LangChain公式解説: 知識グラフ構築×ハイブリッド検索でRAG精度を向上させる実装パターン

ブログ概要(Summary) LangChainの公式ブログでは、非構造化テキストからLLMを用いて知識グラフ(KG)を自動構築し、ベクトル検索+キーワード検索+グラフトラバーサルの3系統ハイブリッド検索でRAG精度を向上させる実装パターンが紹介されている。Neo4jをバックエンドとし、LLMGraphTransformerによるエンティティ・関係抽出からNeo4jVectorによるベクト...

📄 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する

論文概要(Abstract) 本記事は arXiv:2407.01203 Agentless の解説記事です。 Agentlessは、複雑なエージェントアーキテクチャ(長いアクショントラジェクトリ、意思決定ループ、多数のツール使用)を排除し、局所化(localization)→修正(repair)の2段階のみでGitHub issueを自動解決するアプローチである。著者らは、SWE-be...

✍️ NVIDIA解説: NeMo Agent Toolkitで構築するテスト駆動コーディングエージェント — LangGraph×推論モデル×サンドボックス実行

ブログ概要(Summary) 本記事は NVIDIA Developer Blog: Improve AI Code Generation Using NVIDIA NeMo Agent Toolkit の解説記事です。 NVIDIAのNeMo Agent Toolkit(AgentIQ)は、テスト駆動のコーディングエージェントをLangGraphベースで構築するためのフレームワークであ...