📄 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価

本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。論文概要（Abstract） LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...

22/02/2026 blog paper

long-context LLM code-review +5

📄 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows

本記事は arXiv:2502.12561 の解説記事です。論文概要（Abstract）マルチエージェントワークフロー（MAW）はLLMの複雑タスク性能を向上させる手法として広く採用されているが、MAWが単一エージェントワークフロー（SAW）をいつ・なぜ上回るかの理論的基盤は欠如していた。Yang, Wei, Liang（2025）は、情報理論における「集中度（concentrati...

22/02/2026 blog paper

multi-agent LLM workflow +3

📄 NeurIPS 2023論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

論文概要（Abstract）本記事は arXiv:2306.05685 の解説記事です。 Zheng らは、LLMの出力品質を人間評価に代わってLLM自身が評価する「LLM-as-a-Judge」手法を提案し、その信頼性を体系的に検証した。80問のマルチターンベンチマーク MT-Bench と、30,000件以上の人間投票を集めたクラウドソーシングプラットフォーム Chatbot Ar...

22/02/2026 blog paper

LLM-as-Judge evaluation MT-Bench +6

✍️ LangChain公式解説: 知識グラフ構築×ハイブリッド検索でRAG精度を向上させる実装パターン

ブログ概要（Summary） LangChainの公式ブログでは、非構造化テキストからLLMを用いて知識グラフ（KG）を自動構築し、ベクトル検索＋キーワード検索＋グラフトラバーサルの3系統ハイブリッド検索でRAG精度を向上させる実装パターンが紹介されている。Neo4jをバックエンドとし、LLMGraphTransformerによるエンティティ・関係抽出からNeo4jVectorによるベクト...

22/02/2026 blog tech_blog

LangChain knowledge-graph Neo4j +3

📄 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する

論文概要（Abstract）本記事は arXiv:2407.01203 Agentless の解説記事です。 Agentlessは、複雑なエージェントアーキテクチャ（長いアクショントラジェクトリ、意思決定ループ、多数のツール使用）を排除し、局所化（localization）→修正（repair）の2段階のみでGitHub issueを自動解決するアプローチである。著者らは、SWE-be...

22/02/2026 blog paper

coding-agent bug-fix localization +3

✍️ NVIDIA解説: NeMo Agent Toolkitで構築するテスト駆動コーディングエージェント — LangGraph×推論モデル×サンドボックス実行

ブログ概要（Summary）本記事は NVIDIA Developer Blog: Improve AI Code Generation Using NVIDIA NeMo Agent Toolkit の解説記事です。 NVIDIAのNeMo Agent Toolkit（AgentIQ）は、テスト駆動のコーディングエージェントをLangGraphベースで構築するためのフレームワークであ...

22/02/2026 blog tech_blog

NVIDIA NeMo LangGraph +4

✍️ NVIDIA解説: PyG×グラフDBによるGraphRAGのQA精度向上 — G-Retrieverアーキテクチャの実践

ブログ概要（Summary） NVIDIAのテックブログでは、PyG（PyTorch Geometric）のG-Retrieverアーキテクチャを用いたGraphRAG実装を紹介している。GNN（Graph Attention Network）をLLMのファインチューニングに統合し、グラフ構造を考慮した検索・生成パイプラインを構築する手法が解説されている。Neo4jをバックエンドとしたベク...

22/02/2026 blog tech_blog

NVIDIA GraphRAG PyG +4

📄 論文解説: On the Design and Analysis of LLM-Based Algorithms — 自己修正・アンサンブル・外部検証の理論的分析

論文概要（Abstract）本記事は arXiv:2407.13168 の解説記事です。本論文は、LLMを構成要素として含むアルゴリズム（LLMベースアルゴリズム）の成功率を理論的に分析した研究である。著者らは、複数のLLM呼び出しを連鎖させるアルゴリズムにおいて、自己修正（self-correction）、アンサンブル、外部検証ツールの有効性を形式的に定式化し、以下の洞察を導出して...

22/02/2026 blog paper

LLM self-correction verification +3

📄 論文解説: Think-on-Graph — LLMエージェントによる知識グラフ上のマルチホップ推論

論文概要（Abstract）本論文は、LLMをエージェントとして機能させ、知識グラフ（KG）上を反復的にビームサーチでトラバーサルするフレームワーク「Think-on-Graph (ToG)」を提案している。著者らは、各ステップでLLMが「次に探索すべき関係」を選択し、証拠を段階的に収集してから最終回答を生成する「探索→推論」の反復ループにより、従来のKGQA手法を上回る精度を達成したと...

22/02/2026 blog paper

knowledge-graph multi-hop-reasoning LLM-agent +3

📄 論文解説: Agent-R — MCTSベースの反復的自己訓練でLLMエージェントに自己反省能力を獲得させる

論文概要（Abstract）本記事は arXiv:2501.07098 Agent-R の解説記事です。 Agent-Rは、外部フィードバック（環境報酬やCriticモデル等）を必要とせずに、LLMエージェントの自己反省（self-reflection）能力を反復的自己訓練で獲得させるフレームワークである。著者らはモンテカルロ木探索（MCTS）を活用して「最初に誤った行動をとった時点」...

22/02/2026 blog paper

agent self-correction MCTS +3

1
...
111
112
113
...
139
112 / 139