本記事は Deploying Privacy Guardrails for LLMs: A Comparative Analysis of Real-World Applications(Asthana et al., AAAI 2025 Deployable AI Workshop)の解説記事です。 論文概要(Abstract) OneShield Privacy Guardは、LLM...
論文概要 本記事は GTA: A Benchmark for General Tool Agents の解説記事です。 GTA(General Tool Agents)は、Jize Wangらが提案したLLMベースのツール使用エージェントを評価するためのベンチマークである。NeurIPS 2024に採択された本研究は、既存ベンチマークが抱える3つの構造的問題——仮想ツール、単一ツール孤立...
本記事は NVIDIA AI Blueprint for Cost-Efficient LLM Routing(Arun Raman, Sean Lopp、2025年3月公開)の解説記事です。 ブログ概要(Summary) NVIDIAが公開したAI Blueprint for LLM Routerは、複数のLLMに対してクエリの複雑度やタスク種別に応じてインテリジェントにリクエストを振...
本記事は What is new in LLVM 20?(Arm Community Blog) の解説記事です。 ブログ概要(Summary) Arm社は2025年4月29日付のブログ記事で、LLVM 20.1.0(2025年3月11日リリース)へのArmチームの貢献を詳述しています。AWS Graviton 4プロセッサ上のSPEC CPU 2017ベンチマークにおいて、浮動小数点R...
本記事は Anthropic Engineering Blog “How we built our multi-agent research system”(Hadfield, Zhang, Lien, Scholz, Fox, Ford, 2025年6月)の解説記事です。 ブログ概要(Summary) Anthropicのエンジニアリングチームは、マルチエージェント研究システムの設計と...
論文概要(Abstract) SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering は、Princeton大学のJohn Yangらが2024年に発表した論文であり、LLMエージェントがソフトウェアエンジニアリングタスクを遂行するためのインターフェース設計(Agent-Computer Inte...
論文概要(Abstract) 本記事は arXiv:2602.06085 “LAAFD: LLM-based Agents for Accelerated FPGA Design”(2026年2月4日公開)の解説記事です。 LAAFDは、LLMエージェントを用いて汎用C++コードをVitis HLS(High-Level Synthesis)カーネルに変換・最適化するフレームワークです。...
本記事は arXiv:2311.00176 “ChipNeMo: Domain-Adapted LLMs for Chip Design” の解説記事です。 論文概要(Abstract) Liu et al.(2023)は、汎用LLMをチップ設計ドメインに適応させるための包括的手法「ChipNeMo」を提案した。著者らは、LLaMA2(7B/13B/70B)を基盤モデルとして、ドメイン適...
本記事は arXiv:2601.15727 “Towards Automated Kernel Generation in the Era of LLMs” の解説記事です。 論文概要(Abstract) Yang Yu, Peiyu Zang, Chi Hsu Tsai ら14名(2026年1月)は、LLMを用いたGPUカーネル自動生成・最適化の研究分野を体系的に整理したサーベイ論文を...
本記事は Agent-as-a-Judge: Evaluate Agents with Agents の解説記事です。 Mingchen Zhuge らが提案した本論文は、ICML 2025 に採択されている。LLM-as-a-Judge の限界を体系的に分析し、ツール使用・マルチステップ推論・メモリを備えた評価エージェントによる新しい評価パラダイム「Agent-as-a-Judge」を提...