Home
0h-n0 TechBLog
キャンセル

✍️ Anthropic Engineering解説: マルチエージェント研究システムの設計と実装 — 単一エージェント比90.2%の性能向上を実現したアーキテクチャ

本記事は Anthropic Engineering Blog “How we built our multi-agent research system”(Hadfield, Zhang, Lien, Scholz, Fox, Ford, 2025年6月)の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームは、マルチエージェント研究システムの設計と...

📄 論文解説: SWE-agent — コーディングエージェントのためのインターフェース設計原則

論文概要(Abstract) SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering は、Princeton大学のJohn Yangらが2024年に発表した論文であり、LLMエージェントがソフトウェアエンジニアリングタスクを遂行するためのインターフェース設計(Agent-Computer Inte...

📄 論文解説: LAAFD — LLMエージェントによるFPGA設計自動化フレームワーク

論文概要(Abstract) 本記事は arXiv:2602.06085 “LAAFD: LLM-based Agents for Accelerated FPGA Design”(2026年2月4日公開)の解説記事です。 LAAFDは、LLMエージェントを用いて汎用C++コードをVitis HLS(High-Level Synthesis)カーネルに変換・最適化するフレームワークです。...

📄 論文解説: ChipNeMo — チップ設計ドメイン適応LLMの技術的詳細

本記事は arXiv:2311.00176 “ChipNeMo: Domain-Adapted LLMs for Chip Design” の解説記事です。 論文概要(Abstract) Liu et al.(2023)は、汎用LLMをチップ設計ドメインに適応させるための包括的手法「ChipNeMo」を提案した。著者らは、LLaMA2(7B/13B/70B)を基盤モデルとして、ドメイン適...

📄 論文解説: LLMによるGPUカーネル自動生成サーベイ — SFT・RL・マルチエージェント手法の体系的整理

本記事は arXiv:2601.15727 “Towards Automated Kernel Generation in the Era of LLMs” の解説記事です。 論文概要(Abstract) Yang Yu, Peiyu Zang, Chi Hsu Tsai ら14名(2026年1月)は、LLMを用いたGPUカーネル自動生成・最適化の研究分野を体系的に整理したサーベイ論文を...

📄 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク

本記事は Agent-as-a-Judge: Evaluate Agents with Agents の解説記事です。 Mingchen Zhuge らが提案した本論文は、ICML 2025 に採択されている。LLM-as-a-Judge の限界を体系的に分析し、ツール使用・マルチステップ推論・メモリを備えた評価エージェントによる新しい評価パラダイム「Agent-as-a-Judge」を提...

📄 論文解説: Reasoning Models Generate Societies of Thought — 推論モデル内部に自発的に創発する思考の社会

本記事は arXiv:2601.10825 “Reasoning Models Generate Societies of Thought”(Wu, Kotek, Potts, Goodman, 2025年1月)の解説記事です。 論文概要(Abstract) 著者らは、RLHF(人間のフィードバックによる強化学習)やGRPO(報酬ベース強化学習)で訓練された大規模言語モデル(LLM)の推...

📄 論文解説: AgentTool — マルチエージェントワークフローにおけるツール選択評価ベンチマーク

本記事は AgentTool: Evaluating Tool Selection in Multi-Agent Workflows の解説記事です。 論文概要(Abstract) AgentToolは、LLMベースのエージェントがマルチエージェントワークフローにおいてツールを正しく選択できるかどうかを評価するためのベンチマークである。Coding、Math、Reasoning、Writ...