本記事は Agent-Pex: Automated Evaluation and Testing of AI Agents の解説記事です。 AIエージェントの品質評価は、従来のソフトウェアテストとは根本的に異なる課題を含んでいる。LLMベースのエージェントは確率的な推論を行うため、同一入力に対しても異なる出力を返しうる。さらに、エージェントの振る舞いを定義する「仕様」はプロンプト内に自然...
本記事は GSoC 2025: ClangIR Upstreaming(LLVM Project Blog) の解説記事です。 ブログ概要(Summary) 2025年のGoogle Summer of Code(GSoC)において、Amr HeshamがClangIRのアップストリーミング(LLVMメインリポジトリへの統合)を大規模に推進しました。メインLLVMリポジトリに191件のP...
本記事は arXiv:2602.10975 “FeatureBench: Benchmarking Agentic Coding for Complex Feature Development”(Zhang, Wang, Xu, Hu, Liu, 2025年2月)の解説記事です。 論文概要(Abstract) 著者らは、コーディングエージェントの「新機能実装」能力を評価するベンチマークF...
本記事は Efficient Multi-Model Orchestration for Self-Hosted Large Language Models(Vangala & Malik, 2025)の解説記事です。 論文概要(Abstract) Pick and Spinは、セルフホスト環境における複数LLMのオーケストレーションフレームワークである。Kubernetesベー...
本記事は Improvements to RISC-V Vector Code Generation in LLVM(Igalia Compilers Team Blog) の解説記事です。 ブログ概要(Summary) Igalia社のコンパイラチーム(Alex Bradbury、Luke Lau)は、2025年5月のRISC-V Summit Europe(パリ)で発表した内容をブロ...
本記事は Google Research Blog “Towards a science of scaling agent systems: When and why agent systems work”(Kim, Liu, 2026年1月、arXiv:2512.08296)の解説記事です。 ブログ概要(Summary) Google Researchの研究者らは、「エージェントを増や...
本記事は Deploying Privacy Guardrails for LLMs: A Comparative Analysis of Real-World Applications(Asthana et al., AAAI 2025 Deployable AI Workshop)の解説記事です。 論文概要(Abstract) OneShield Privacy Guardは、LLM...
論文概要 本記事は GTA: A Benchmark for General Tool Agents の解説記事です。 GTA(General Tool Agents)は、Jize Wangらが提案したLLMベースのツール使用エージェントを評価するためのベンチマークである。NeurIPS 2024に採択された本研究は、既存ベンチマークが抱える3つの構造的問題——仮想ツール、単一ツール孤立...
本記事は NVIDIA AI Blueprint for Cost-Efficient LLM Routing(Arun Raman, Sean Lopp、2025年3月公開)の解説記事です。 ブログ概要(Summary) NVIDIAが公開したAI Blueprint for LLM Routerは、複数のLLMに対してクエリの複雑度やタスク種別に応じてインテリジェントにリクエストを振...
本記事は What is new in LLVM 20?(Arm Community Blog) の解説記事です。 ブログ概要(Summary) Arm社は2025年4月29日付のブログ記事で、LLVM 20.1.0(2025年3月11日リリース)へのArmチームの貢献を詳述しています。AWS Graviton 4プロセッサ上のSPEC CPU 2017ベンチマークにおいて、浮動小数点R...