📄 論文解説: CachedAttention — マルチターン会話のKVキャッシュ再利用でTTFT 2.8倍高速化

本記事は CachedAttention: Cost-Efficient Large Language Model Serving for Multi-turn Conversations with KV Cache Reuse の解説記事です。論文概要（Abstract） CachedAttentionは、マルチターン会話においてセッション間のKVキャッシュを保存・再利用するシステム...

23/02/2026 blog paper

KV-cache multi-turn LLM +3

📄 論文解説: LLUMNIX — リクエストライブマイグレーションによるLLM推論の動的負荷分散

本記事は LLUMNIX: Dynamic Scheduling for Large Language Model Serving (arXiv:2401.11351) の解説記事です。論文概要（Abstract） LLUMNIXは、LLM推論サービングクラスタにおいて実行中のリクエストをKVキャッシュごとGPUインスタンス間でライブマイグレーションする機構を提案した論文である。従来の...

23/02/2026 blog paper

llm-serving load-balancing inference-optimization +3

📄 カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク

本記事は ICML 2025 に採択された論文の解説記事です。論文概要（Abstract） Patil, Mao, Yan, Ji, Suresh, Stoica, Gonzalez (2025) は、LLMのFunction Calling（ツール呼び出し）能力を体系的に評価するベンチマーク BFCL（Berkeley Function Calling Leaderboard）を提...

23/02/2026 blog paper

function-calling tool-use benchmark +4

✍️ Anthropic公式解説: Claude Prompt Cachingの技術仕様と最適化戦略

本記事は Anthropic公式ドキュメント: Prompt caching および Anthropic公式ブログ: Prompt caching with Claude の解説記事です。ブログ概要（Summary） Anthropicが提供するPrompt Cachingは、Claude APIのリクエスト間で共通するプロンプトプレフィックスのKV（Key-Value）テンソルをサー...

23/02/2026 blog tech_blog

anthropic claude prompt-caching +3

📄 論文解説: Towards Optimizing the Costs of LLM Usage — 品質予測とLP緩和によるLLMコスト40-90%削減

論文概要（Abstract）本記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト最大60%削減の深掘りです。本論文「Towards Optimizing the Costs of LLM Usage」（Shekhar, Dubey, Mukherjee, Saxena, Tyagi, Kotla; 2024）は、複数のLL...

23/02/2026 blog paper

LLM cost-optimization model-selection +4

✍️ NVIDIA解説: VILA/Cosmos Nemotron — クラウドからエッジまでのVLMデプロイメント戦略

本記事は Visual Language Intelligence and Edge AI 2.0 with NVIDIA Cosmos Nemotron（NVIDIA Technical Blog）の解説記事です。ブログ概要（Summary） NVIDIA が2025年1月に公開した本ブログは、同社の Vision-Language Model（VLM）ファミリーである VILA/...

23/02/2026 blog tech_blog

nvidia vila cosmos-nemotron +3

✍️ NVIDIA解説: Traditional RAG vs. Agentic RAG — 動的知識検索を実現するエージェント型RAGの設計原則

本記事は NVIDIA Developer Blog: Traditional RAG vs. Agentic RAG—Why AI Agents Need Dynamic Knowledge to Get Smarter の解説記事です。この記事は Zenn記事: LangGraph×Claude Sonnet 4.6のtool_useで出典付きAgentic RAGを構築するの深掘...

23/02/2026 blog tech_blog

RAG agentic NVIDIA +4

✍️ NVIDIA Developer Blog解説: AI Blueprint for Cost-Efficient LLM Routingの実装アーキテクチャ

本記事は Deploying the NVIDIA AI Blueprint for Cost-Efficient LLM Routing（NVIDIA Developer Blog）の解説記事です。ブログ概要（Summary） NVIDIAは、LLMルーティングの本番環境向けリファレンス実装として「AI Blueprint for Cost-Efficient LLM Routing...

23/02/2026 blog tech_blog

NVIDIA LLM routing +5

✍️ AWS解説: Amazon Bedrock Knowledge Basesによる構造化データの自然言語クエリ — マネージドNL2SQLの実装パターン

本記事は AWS Machine Learning Blog: Build conversational interfaces for structured data using Amazon Bedrock Knowledge Bases の解説記事です。ブログ概要（Summary） AWSは2025年にAmazon Bedrock Knowledge Basesに構造化データ対応機...

23/02/2026 blog tech_blog

aws bedrock text-to-sql +4

📄 論文解説: LLMによるノーコード開発の適性要因 — エンドユーザーIoTアプリケーション開発への適用

論文概要（Abstract）本論文は、ノーコード開発プラットフォーム（NCDP: No-Code Development Platform）にLLMを統合する際の適性要因を実証的に分析した研究である。著者ら（Minghe Wang et al.）は、4つの要因——モデル選択、プロンプト言語、学習データの背景知識、エラー情報を活用したFew-shot設計——がノーコード開発の成功率に与える...

23/02/2026 blog paper

LLM no-code IoT +3

1
...
74
75
76
...
112
75 / 112