本記事は Anthropic Engineering Blog “How we built our multi-agent research system”(Hadfield, Zhang, Lien, Scholz, Fox, Ford, 2025年6月)の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームは、マルチエージェント研究システムの設計と...
論文概要(Abstract) SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering は、Princeton大学のJohn Yangらが2024年に発表した論文であり、LLMエージェントがソフトウェアエンジニアリングタスクを遂行するためのインターフェース設計(Agent-Computer Inte...
論文概要(Abstract) 本記事は arXiv:2602.06085 “LAAFD: LLM-based Agents for Accelerated FPGA Design”(2026年2月4日公開)の解説記事です。 LAAFDは、LLMエージェントを用いて汎用C++コードをVitis HLS(High-Level Synthesis)カーネルに変換・最適化するフレームワークです。...
本記事は arXiv:2311.00176 “ChipNeMo: Domain-Adapted LLMs for Chip Design” の解説記事です。 論文概要(Abstract) Liu et al.(2023)は、汎用LLMをチップ設計ドメインに適応させるための包括的手法「ChipNeMo」を提案した。著者らは、LLaMA2(7B/13B/70B)を基盤モデルとして、ドメイン適...
本記事は arXiv:2601.15727 “Towards Automated Kernel Generation in the Era of LLMs” の解説記事です。 論文概要(Abstract) Yang Yu, Peiyu Zang, Chi Hsu Tsai ら14名(2026年1月)は、LLMを用いたGPUカーネル自動生成・最適化の研究分野を体系的に整理したサーベイ論文を...
本記事は Agent-as-a-Judge: Evaluate Agents with Agents の解説記事です。 Mingchen Zhuge らが提案した本論文は、ICML 2025 に採択されている。LLM-as-a-Judge の限界を体系的に分析し、ツール使用・マルチステップ推論・メモリを備えた評価エージェントによる新しい評価パラダイム「Agent-as-a-Judge」を提...
ブログ概要(Summary) 本記事は Anthropic Engineering Blog: “Building a C compiler with a team of parallel Claudes”(2026年2月5日公開)の解説記事です。 Anthropicの研究者Nicholas Carliniは、16並列のClaude Opus 4.6エージェントを使い、Linuxカーネル...
本記事は arXiv:2601.10825 “Reasoning Models Generate Societies of Thought”(Wu, Kotek, Potts, Goodman, 2025年1月)の解説記事です。 論文概要(Abstract) 著者らは、RLHF(人間のフィードバックによる強化学習)やGRPO(報酬ベース強化学習)で訓練された大規模言語モデル(LLM)の推...
本記事は AgentTool: Evaluating Tool Selection in Multi-Agent Workflows の解説記事です。 論文概要(Abstract) AgentToolは、LLMベースのエージェントがマルチエージェントワークフローにおいてツールを正しく選択できるかどうかを評価するためのベンチマークである。Coding、Math、Reasoning、Writ...
本記事は A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler (arXiv:2409.11068) の解説記事です。 論文概要(Abstract) 著者らはMLIR RLと名付けた強化学習環境を提案しています。この環境はMLIRコンパイラのLinalg Dial...