Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク

本記事は Agent-as-a-Judge: Evaluate Agents with Agents の解説記事です。 Mingchen Zhuge らが提案した本論文は、ICML 2025 に採択されている。LLM-as-a-Judge の限界を体系的に分析し、ツール使用・マルチステップ推論・メモリを備えた評価エージェントによる新しい評価パラダイム「Agent-as-a-Judge」を提...

📄 論文解説: Reasoning Models Generate Societies of Thought — 推論モデル内部に自発的に創発する思考の社会

本記事は arXiv:2601.10825 “Reasoning Models Generate Societies of Thought”(Wu, Kotek, Potts, Goodman, 2025年1月)の解説記事です。 論文概要(Abstract) 著者らは、RLHF(人間のフィードバックによる強化学習)やGRPO(報酬ベース強化学習)で訓練された大規模言語モデル(LLM)の推...

📄 論文解説: AgentTool — マルチエージェントワークフローにおけるツール選択評価ベンチマーク

本記事は AgentTool: Evaluating Tool Selection in Multi-Agent Workflows の解説記事です。 論文概要(Abstract) AgentToolは、LLMベースのエージェントがマルチエージェントワークフローにおいてツールを正しく選択できるかどうかを評価するためのベンチマークである。Coding、Math、Reasoning、Writ...

📄 ICLR 2025論文解説: RouteLLM — 人間の選好データを活用したLLMルーティングフレームワーク

本記事は RouteLLM: Learning to Route LLMs with Preference Data(Ong et al., ICLR 2025)の解説記事です。 論文概要(Abstract) RouteLLMは、推論時にクエリごとに強いLLM(例: GPT-4)と弱いLLM(例: Mixtral-8x7B)を動的に切り替えるルーターモデルのフレームワークである。著者らは...

📄 論文解説: Hardware Acceleration of LLMs — GPU・FPGA・ASIC・PIM横断サーベイ

本記事は Hardware Acceleration of LLMs: A comprehensive survey and comparison の解説記事です。 論文概要(Abstract) 本サーベイは、LLM推論のハードウェア高速化に関する包括的な調査と比較を提供する。著者らはGPU、FPGA、ASIC、In-Memory Processing(PIM)の4つのハードウェアプラッ...

📄 論文解説: AIDE — ツリー探索によるML実験自動化エージェント

本記事は AIDE: Machine Learning Engineer Agent (Weco AI, 2025)の解説記事です。 論文概要(Abstract) Weco AIのAIDE(AI Development Environment)は、MLエンジニアリングタスクをコード空間におけるツリー探索問題としてフレーミングし、LLMエージェントが反復的にソリューションコードを生成・改善...