本記事は APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets の解説記事です。 論文概要(Abstract) APIGenは、LLMのFunction Calling能力を向上させるための検証可能かつ多様な訓練データセットを自動生成するパイプラインである。21...
本記事は Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark の解説記事です。 論文概要(Abstract) Seal-Toolsは、LLMのツール使用能力を訓練・評価するために設計されたSelf-Instruct方式のデータセットである。4,076個のAPI風ツー...
本記事は API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs の解説記事です。 論文概要(Abstract) API-Bankは、ツール拡張LLM(Tool-Augmented LLM)を体系的に評価するために設計されたベンチマークである。著者らは73種の実行可能なAPIツールを実装し、314件のツール利用対話(753件...
本記事は NexusRaven: a Commercially-Permissive Language Model for Function Calling の解説記事です。 論文概要(Abstract) NexusRaven-13Bは、CodeLLAMA-13Bをベースとしたfunction calling特化のオープンソース言語モデルである。著者らは、多くのオープンソースモデルが高品...
ブログ概要(Summary) 本記事は AI SDK 6 - Vercel の解説記事です。 AI SDK 6は、Vercelが公開したTypeScriptベースのLLMアプリケーション構築フレームワークのメジャーバージョンアップである。v3 Language Model Specificationに基づき、ToolLoopAgentクラスによるエージェント抽象化、needsApprov...
本記事は arXiv:2503.01141 TurboRAG: Accelerating Retrieval-Augmented Generation with Precomputed KV Caches for Chunked Text の解説記事です。 論文概要(Abstract) TurboRAGは、RAG(Retrieval-Augmented Generation)システムにお...
本記事は Introducing GPT-5.5 (OpenAI) および Using GPT-5.5 (API Docs) の解説記事です。 ブログ概要(Summary) OpenAIは2026年4月23日にGPT-5.5をリリースした。GPT-5.5はreasoning.effortパラメータ(none/low/medium/high/xhigh)で推論深度とレイテンシのトレードオフ...
本記事は Introducing the agent performance loop: AgentCore Optimization now in preview の解説記事です。 ブログ概要(Summary) AWSは2026年4月30日、Amazon Bedrock AgentCore Optimizationのプレビュー提供を発表した。この機能は、プロダクション環境で収集されたエ...
本記事は arXiv:2503.10461 Reasoning Under Adaptive Budgets の解説記事です。 論文概要(Abstract) 本論文は、LLMが複雑な推論タスクに取り組む際の計算予算(推論トークン数・ステップ数)を動的に制御する手法群を体系的にサーベイしている。著者らは、Chain-of-Thought(CoT)推論の計算コストが実用上の課題となっている現...
本記事は Optimizing AI responsiveness: A practical guide to Amazon Bedrock latency-optimized inference の解説記事です。 ブログ概要(Summary) AWSが公式ブログで公開した「Amazon Bedrock latency-optimized inference」の実践ガイドでは、perfo...