Home
0h-n0 TechBLog
キャンセル

✍️ Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール

本記事は Agent-Pex: Automated Evaluation and Testing of AI Agents の解説記事です。 AIエージェントの品質評価は、従来のソフトウェアテストとは根本的に異なる課題を含んでいる。LLMベースのエージェントは確率的な推論を行うため、同一入力に対しても異なる出力を返しうる。さらに、エージェントの振る舞いを定義する「仕様」はプロンプト内に自然...

✍️ GSoC 2025 ClangIRアップストリーミングの全貌:191PR・VectorType・ComplexType・例外処理

本記事は GSoC 2025: ClangIR Upstreaming(LLVM Project Blog) の解説記事です。 ブログ概要(Summary) 2025年のGoogle Summer of Code(GSoC)において、Amr HeshamがClangIRのアップストリーミング(LLVMメインリポジトリへの統合)を大規模に推進しました。メインLLVMリポジトリに191件のP...

📄 論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク

本記事は arXiv:2602.10975 “FeatureBench: Benchmarking Agentic Coding for Complex Feature Development”(Zhang, Wang, Xu, Hu, Liu, 2025年2月)の解説記事です。 論文概要(Abstract) 著者らは、コーディングエージェントの「新機能実装」能力を評価するベンチマークF...

✍️ Google Research解説: エージェントシステムのスケーリング科学 — マルチエージェントが機能する条件と失敗する条件の定量分析

本記事は Google Research Blog “Towards a science of scaling agent systems: When and why agent systems work”(Kim, Liu, 2026年1月、arXiv:2512.08296)の解説記事です。 ブログ概要(Summary) Google Researchの研究者らは、「エージェントを増や...

📄 NeurIPS 2024論文解説: GTA — 実行可能ツールによる汎用ツールエージェントベンチマーク

論文概要 本記事は GTA: A Benchmark for General Tool Agents の解説記事です。 GTA(General Tool Agents)は、Jize Wangらが提案したLLMベースのツール使用エージェントを評価するためのベンチマークである。NeurIPS 2024に採択された本研究は、既存ベンチマークが抱える3つの構造的問題——仮想ツール、単一ツール孤立...

✍️ テックブログ解説: NVIDIA AI Blueprint — コスト効率の高いLLMルーティング基盤

本記事は NVIDIA AI Blueprint for Cost-Efficient LLM Routing(Arun Raman, Sean Lopp、2025年3月公開)の解説記事です。 ブログ概要(Summary) NVIDIAが公開したAI Blueprint for LLM Routerは、複数のLLMに対してクエリの複雑度やタスク種別に応じてインテリジェントにリクエストを振...

✍️ ArmのLLVM 20貢献を読み解く:Graviton 4でSPEC2017浮動小数点3%向上の技術的背景

本記事は What is new in LLVM 20?(Arm Community Blog) の解説記事です。 ブログ概要(Summary) Arm社は2025年4月29日付のブログ記事で、LLVM 20.1.0(2025年3月11日リリース)へのArmチームの貢献を詳述しています。AWS Graviton 4プロセッサ上のSPEC CPU 2017ベンチマークにおいて、浮動小数点R...