本記事は Use Amazon Bedrock Intelligent Prompt Routing for cost and latency benefits(AWS Machine Learning Blog)の解説記事です。 ブログ概要(Summary) AWS Machine Learning Blogは、Amazon Bedrock Intelligent Prompt Rou...
ブログ概要(Summary) 2024年11月25日、AnthropicはModel Context Protocol(MCP)を発表した。MCPは、AIアシスタントと外部データソース・ツールを接続するためのオープンスタンダードであり、コンテンツリポジトリ、ビジネスツール、開発環境など、データが存在するシステムとAIを統合するための標準的な方法を提供する。従来の断片的なインテグレーションを...
本記事は arXiv:2501.17893 の解説記事です。 論文概要(Abstract) MemEngineは、LLMエージェントのメモリシステムを統一的かつモジュラーに構築するためのライブラリである。著者らは、既存のLLMエージェントがメモリを断片的かつアドホックに実装している問題を指摘し、Memory Operations(21種のアトミックプリミティブ)→ Memory Func...
本記事は arXiv:2501.13956 Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory の解説記事です。 論文概要(Abstract) 著者ら(Deshraj Yadav, Taranjeet Singh, Dev Khant, 2025年1月)は、LLMエージェントにスケーラブルな長期...
本記事は arXiv:2412.04687 の解説記事です。 論文概要(Abstract) Cuiらは、LLMを用いたNL2SQL(自然言語→SQL変換)の研究を「訓練軸」と「推論軸」の2次元で体系的に分類したサーベイを発表した。訓練軸ではPre-training、Supervised Fine-Tuning(SFT)、RLHF(人間フィードバックからの強化学習)の3段階を、推論軸ではP...
論文概要(Abstract) 本記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト最大60%削減 の深掘りです。 本論文「A Unified Approach to Routing and Cascading for LLMs」(Dekoninck, Baader, Vechev; ICML 2025)は、複数のLLMから最適な...
本記事は arXiv:2405.16755 “CHESS: Contextual Harnessing for Efficient SQL Synthesis” の解説記事です。 この記事は Zenn記事: LangGraph×Claude Sonnet 4.6でSQL統合Agentic RAGを実装する の深掘りです。 論文概要(Abstract) 自然言語からSQLクエリを生成する...
本記事は Gemini 1.5: Unlocking multimodal understanding across millions of tokens of context (arXiv:2403.05530) の解説記事です。 論文概要(Abstract) Gemini 1.5 は Google DeepMind が2024年3月に発表したマルチモーダルモデルファミリーで、最大10...
本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference の解説記事です。 論文概要(Abstract) 著者らは、LLMの推論時にプロンプトの共有部分(システムプロンプト、Few-shotサンプル等)のアテンション状態(KVキャッシュ)を事前計算・保存し、後続のリクエストで再利用するPrompt Cache...
本記事は arXiv:2307.09702 の解説記事です。 論文概要(Abstract) Willard & Louf (2023) は、大規模言語モデル(LLM)のテキスト生成を正規表現や文脈自由文法(CFG)で制約する手法を提案している。著者らは、テキスト生成問題を有限状態機械(FSM)の状態遷移として再定式化し、各デコードステップで文法的に有効なトークンのみを許可するマス...