Home
0h-n0 TechBLog
キャンセル

📄 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価

本記事は LongCodeBench: Evaluating Coding LLMs at 1M Context Windows (arXiv:2505.07897) の解説記事です。 論文概要(Abstract) LongCodeBenchは、コーディングLLMの長文コンテキスト能力を体系的に評価するためのベンチマークである。著者らは、実世界のGitHubリポジトリから収集した108リ...

📄 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows

本記事は arXiv:2502.12561 の解説記事です。 論文概要(Abstract) マルチエージェントワークフロー(MAW)はLLMの複雑タスク性能を向上させる手法として広く採用されているが、MAWが単一エージェントワークフロー(SAW)をいつ・なぜ上回るかの理論的基盤は欠如していた。Yang, Wei, Liang(2025)は、情報理論における「集中度(concentrati...

📄 NeurIPS 2023論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena

論文概要(Abstract) 本記事は arXiv:2306.05685 の解説記事です。 Zheng らは、LLMの出力品質を人間評価に代わってLLM自身が評価する「LLM-as-a-Judge」手法を提案し、その信頼性を体系的に検証した。80問のマルチターンベンチマーク MT-Bench と、30,000件以上の人間投票を集めたクラウドソーシングプラットフォーム Chatbot Ar...

✍️ LangChain公式解説: 知識グラフ構築×ハイブリッド検索でRAG精度を向上させる実装パターン

ブログ概要(Summary) LangChainの公式ブログでは、非構造化テキストからLLMを用いて知識グラフ(KG)を自動構築し、ベクトル検索+キーワード検索+グラフトラバーサルの3系統ハイブリッド検索でRAG精度を向上させる実装パターンが紹介されている。Neo4jをバックエンドとし、LLMGraphTransformerによるエンティティ・関係抽出からNeo4jVectorによるベクト...

📄 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する

論文概要(Abstract) 本記事は arXiv:2407.01203 Agentless の解説記事です。 Agentlessは、複雑なエージェントアーキテクチャ(長いアクショントラジェクトリ、意思決定ループ、多数のツール使用)を排除し、局所化(localization)→修正(repair)の2段階のみでGitHub issueを自動解決するアプローチである。著者らは、SWE-be...

✍️ NVIDIA解説: NeMo Agent Toolkitで構築するテスト駆動コーディングエージェント — LangGraph×推論モデル×サンドボックス実行

ブログ概要(Summary) 本記事は NVIDIA Developer Blog: Improve AI Code Generation Using NVIDIA NeMo Agent Toolkit の解説記事です。 NVIDIAのNeMo Agent Toolkit(AgentIQ)は、テスト駆動のコーディングエージェントをLangGraphベースで構築するためのフレームワークであ...

✍️ NVIDIA解説: PyG×グラフDBによるGraphRAGのQA精度向上 — G-Retrieverアーキテクチャの実践

ブログ概要(Summary) NVIDIAのテックブログでは、PyG(PyTorch Geometric)のG-Retrieverアーキテクチャを用いたGraphRAG実装を紹介している。GNN(Graph Attention Network)をLLMのファインチューニングに統合し、グラフ構造を考慮した検索・生成パイプラインを構築する手法が解説されている。Neo4jをバックエンドとしたベク...

📄 論文解説: On the Design and Analysis of LLM-Based Algorithms — 自己修正・アンサンブル・外部検証の理論的分析

論文概要(Abstract) 本記事は arXiv:2407.13168 の解説記事です。 本論文は、LLMを構成要素として含むアルゴリズム(LLMベースアルゴリズム)の成功率を理論的に分析した研究である。著者らは、複数のLLM呼び出しを連鎖させるアルゴリズムにおいて、自己修正(self-correction)、アンサンブル、外部検証ツールの有効性を形式的に定式化し、以下の洞察を導出して...

📄 論文解説: Think-on-Graph — LLMエージェントによる知識グラフ上のマルチホップ推論

論文概要(Abstract) 本論文は、LLMをエージェントとして機能させ、知識グラフ(KG)上を反復的にビームサーチでトラバーサルするフレームワーク「Think-on-Graph (ToG)」を提案している。著者らは、各ステップでLLMが「次に探索すべき関係」を選択し、証拠を段階的に収集してから最終回答を生成する「探索→推論」の反復ループにより、従来のKGQA手法を上回る精度を達成したと...

📄 論文解説: Agent-R — MCTSベースの反復的自己訓練でLLMエージェントに自己反省能力を獲得させる

論文概要(Abstract) 本記事は arXiv:2501.07098 Agent-R の解説記事です。 Agent-Rは、外部フィードバック(環境報酬やCriticモデル等)を必要とせずに、LLMエージェントの自己反省(self-reflection)能力を反復的自己訓練で獲得させるフレームワークである。著者らはモンテカルロ木探索(MCTS)を活用して「最初に誤った行動をとった時点」...