Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Don't Break the Cache - プロンプトキャッシュの実践的評価

論文概要 本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks の解説記事です。 Lumer ら(2026)は、OpenAI・Anthropic・Google の 3 プロバイダが提供するプロンプトキャッシュ機構を、マルチターンのエージェントタスクで体系的に評価...

📄 EMNLP 2023論文解説: LLMLingua - プロンプト圧縮で最大20倍のトークン削減

論文概要 本記事は LLMLingua: Compressing Prompts for Accelerated Inference of Large Language Models の解説記事です。 LLMLinguaは、小型言語モデル(LLaMA-7B / Alpaca-7B等)を圧縮器として活用し、大規模言語モデル(GPT-3.5/GPT-4等)への入力プロンプトを最大20倍に圧縮...

📄 論文解説: FrugalGPT - LLMカスケードで最大98%のコスト削減を実現

論文概要(Abstract) 本記事は FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance の解説記事です。 FrugalGPTは、LLM APIの推論コスト削減と性能向上を同時に追求するフレームワークである。著者らは、LLM APIの料金が最大2桁の差があるこ...

📄 論文解説: GPT Semantic Cache - セマンティックキャッシュによるLLMコスト削減

論文概要(Abstract) 本記事は GPT Semantic Cache: Reducing LLM Costs and Latency via Semantic Embedding Caching の解説記事です。 著者らは、LLM APIへの冗長な問い合わせを削減するために、Redis上にクエリ埋め込みをキャッシュし、意味的に類似したクエリに対して過去の応答を再利用するセマンティ...

📄 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference

論文概要(Abstract) 本記事は Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey の解説記事です。 本サーベイ論文は、LLM推論時に複数モデルから動的にモデルを選択する「ルーティング」と「カスケード」のアプローチを体系的に整理したものです。著者らは、クエリ難易度推定、人間の嗜好データ...

📄 論文解説: ToolPRM — Function Callingのためのプロセス報酬モデルによる推論時スケーリング

本記事は ToolPRM: Fine-Grained Inference Scaling of Structured Outputs for Function Calling(Lin et al., 2025年10月、ACL 2026 採択)の解説記事です。 論文概要(Abstract) 推論時スケーリング(test-time compute scaling)は数学的推論タスクで成功を収...

📄 論文解説: VIGIL — ツールストリームインジェクションからLLMエージェントを防御するVerify-Before-Commitプロトコル

本記事は VIGIL: Defending LLM Agents Against Tool Stream Injection via Verify-Before-Commit(Lin et al., 2026年1月)の解説記事です。 論文概要(Abstract) LLMエージェントのツール呼び出しにおいて、ツール定義(docstring)やランタイムフィードバック(tool_result...

📄 論文解説: XGrammar-2 — エージェントLLMのための動的構造化生成エンジン

本記事は XGrammar-2: Efficient Dynamic Structured Generation Engine for Agentic LLMs(Li et al., 2026年1月、ACM CAIS 26)の解説記事です。 論文概要(Abstract) 現代のLLMエージェントはツール呼び出し(Function Calling)において動的な構造化生成を必要とする。出力...

📄 論文解説: To Call or Not to Call — LLMツール呼び出しの必要性・有用性・コスト効率を評価するフレームワーク

本記事は To Call or Not to Call: A Framework to Assess and Optimize LLM Tool Calling(Wu et al., 2026年5月)の解説記事です。 論文概要(Abstract) LLMエージェントにおけるツール呼び出し(Function Calling)は常に有益とは限らない。冗長な呼び出しや性能を低下させる呼び出しが...