本記事は CachedAttention: Cost-Efficient Large Language Model Serving for Multi-turn Conversations with KV Cache Reuse の解説記事です。 論文概要(Abstract) CachedAttentionは、マルチターン会話においてセッション間のKVキャッシュを保存・再利用するシステム...
本記事は LLUMNIX: Dynamic Scheduling for Large Language Model Serving (arXiv:2401.11351) の解説記事です。 論文概要(Abstract) LLUMNIXは、LLM推論サービングクラスタにおいて実行中のリクエストをKVキャッシュごとGPUインスタンス間でライブマイグレーションする機構を提案した論文である。従来の...
本記事は ICML 2025 に採択された論文の解説記事です。 論文概要(Abstract) Patil, Mao, Yan, Ji, Suresh, Stoica, Gonzalez (2025) は、LLMのFunction Calling(ツール呼び出し)能力を体系的に評価するベンチマーク BFCL(Berkeley Function Calling Leaderboard) を提...
本記事は Anthropic公式ドキュメント: Prompt caching および Anthropic公式ブログ: Prompt caching with Claude の解説記事です。 ブログ概要(Summary) Anthropicが提供するPrompt Cachingは、Claude APIのリクエスト間で共通するプロンプトプレフィックスのKV(Key-Value)テンソルをサー...
論文概要(Abstract) 本記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト最大60%削減 の深掘りです。 本論文「Towards Optimizing the Costs of LLM Usage」(Shekhar, Dubey, Mukherjee, Saxena, Tyagi, Kotla; 2024)は、複数のLL...
本記事は Visual Language Intelligence and Edge AI 2.0 with NVIDIA Cosmos Nemotron(NVIDIA Technical Blog) の解説記事です。 ブログ概要(Summary) NVIDIA が2025年1月に公開した本ブログは、同社の Vision-Language Model(VLM)ファミリーである VILA/...
本記事は NVIDIA Developer Blog: Traditional RAG vs. Agentic RAG—Why AI Agents Need Dynamic Knowledge to Get Smarter の解説記事です。 この記事は Zenn記事: LangGraph×Claude Sonnet 4.6のtool_useで出典付きAgentic RAGを構築する の深掘...
本記事は Deploying the NVIDIA AI Blueprint for Cost-Efficient LLM Routing(NVIDIA Developer Blog)の解説記事です。 ブログ概要(Summary) NVIDIAは、LLMルーティングの本番環境向けリファレンス実装として「AI Blueprint for Cost-Efficient LLM Routing...
本記事は AWS Machine Learning Blog: Build conversational interfaces for structured data using Amazon Bedrock Knowledge Bases の解説記事です。 ブログ概要(Summary) AWSは2025年にAmazon Bedrock Knowledge Basesに構造化データ対応機...
論文概要(Abstract) 本論文は、ノーコード開発プラットフォーム(NCDP: No-Code Development Platform)にLLMを統合する際の適性要因を実証的に分析した研究である。著者ら(Minghe Wang et al.)は、4つの要因——モデル選択、プロンプト言語、学習データの背景知識、エラー情報を活用したFew-shot設計——がノーコード開発の成功率に与える...