本記事は AutoTool: Efficient Tool Selection for Large Language Model Agents の解説記事です。 論文概要(Abstract) LLMエージェントにおけるツール選択は、各ステップでLLMに推論を要求するためコストが高い。本論文は、エージェントの過去の実行履歴(trajectory)からツール間の遷移パターンを有向グラフとして...
ブログ概要(Summary) 本記事は Redis: LLM Token Optimization: Cut Costs & Latency in 2026 の解説記事です。 LLMのトークンはAPI利用の「通貨」であり、各トークンがコストとレイテンシに直結します。ブログでは、トークン消費の最適化手法を基盤テクニック(追加ツール不要)と高度な最適化(セマンティックキャッシュ等)に...
本記事は Toolshed: Scale Tool-Equipped Agents with Advanced RAG-Tool Fusion and Tool Knowledge Bases の解説記事です。 論文概要(Abstract) LLMエージェントが利用可能なツールの数が増加するにつれ、全ツールのスキーマをコンテキストに収めることが困難になる。本論文は、RAG(Retriev...
ブログ概要(Summary) 本記事は Portkey: Retries, fallbacks, and circuit breakers in LLM apps: what to use when の解説記事です。 LLMアプリケーションの本番運用において、プロバイダーの障害やレート制限は避けられません。ブログでは、この問題に対する3つの相補的なパターン — リトライ(一時的エラーから...
本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks の解説記事です。 論文概要(Abstract) LLMエージェントは複雑なマルチターンタスクにおいて大量のツール呼び出しとコンテキスト蓄積を行うが、プロンプトキャッシュによるコスト削減効果は十分に研究されてい...
本記事は Introducing advanced tool use on the Claude Developer Platform の解説記事です。 ブログ概要(Summary) Anthropicは2025年11月、Claude Developer Platformに3つのベータ機能をリリースした。Tool Search Tool(ツール定義の動的検索・ロード)、Programma...
論文概要(Abstract) 本記事は arXiv:2502.03771 SemCache: Semantic-Aware GPT-Cache through LLM-Embedded Similarity の解説記事です。 SemCacheは、LLM推論のセマンティックキャッシュにおける2つの根本的課題を解決する手法です。第1の課題は、既存の埋め込みベース類似度(EBS)が意味的に異な...
論文概要(Abstract) RouterEvalは、LLMルーティング戦略を体系的に評価するための包括的ベンチマークフレームワークです。16種類のルーター(分類器ベース、スコアリングベース、カスケード型等)を、9つのLLMプール、12のクエリセット、7つの評価メトリクスで評価し、合計1,152通りの組み合わせを検証しています。主要な知見として、万能のルーターは存在せず、LLMプールの構成...
ブログ概要(Summary) 本記事は Microsoft Tech Community: Azure API Management - Unified AI Gateway Design Pattern の解説記事です。 欧州エネルギー企業Uniperが開発した「Unified AI Gateway」デザインパターンは、Azure API Management(APIM)のポリシー拡張...
本記事は Agentic Plan Caching: Test-Time Memory for Fast and Cost-Efficient LLM Agents の解説記事です。 論文概要(Abstract) LLMベースのエージェントは複雑なワークフローを自動化できるが、タスクごとに計画(Plan)をゼロから生成するため、APIコストとレイテンシが大きな課題となっている。本論文は、...