本記事は CHASE-SQL: Multi-Path Reasoning and Preference Optimized Candidate Selection in Text-to-SQL の解説記事です。 論文概要(Abstract) CHASE-SQLは、3つの独立したSQL生成パス(Chain-of-Thought、Divide-and-Conquer、Query Plan B...
本記事は RAGCache: Efficient Knowledge Caching for Retrieval-Augmented Generation の解説記事です。 論文概要(Abstract) RAGCache は、RAG(Retrieval-Augmented Generation)システムにおける検索結果(知識チャンク)のKVキャッシュを事前計算・階層的に管理するフレームワ...
本記事は DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving(arXiv:2403.02310、2024年3月公開)の解説記事です。 論文概要(Abstract) DistServeは、LLM推論のPrefillフェーズ(プロンプト処理)とDec...
本記事は arXiv:2309.02427 Cognitive Architectures for Language Agents の解説記事です。 論文概要(Abstract) 著者ら(Theodore Sumers, Shunyu Yao, Karthik Narasimhan, Thomas L. Griffiths, Princeton University, 2023年9月)は...
本記事は arXiv:2307.16789 の解説記事です。 論文概要(Abstract) Qin, Liang, Ye ら (2023) は、LLMに大量のReal-world APIを使いこなさせるための学習フレームワーク ToolLLM を提案している。RapidAPIプラットフォームから16,000以上のRESTful APIを収集し、49,000件の命令-API呼び出しペアから...
論文概要(Abstract) 本記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト最大60%削減 の深掘りです。 本論文「MiniLLM: Knowledge Distillation of Large Language Models」(Gu, Dong, Wei, Huang; ICLR 2024)は、大規模言語モデル(教師モ...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention の解説記事です。 注記: 本論文はarXiv ID 2309.06180として公開されているが、正式にはSOSP 2023(Symposium on Operating Systems Principles)で採択された...
本記事は Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve (arXiv:2403.02310, OSDI 2024) の解説記事です。 論文概要(Abstract) Sarathi-Serveは、LLM推論サービングにおけるスループットとレイテンシのトレードオフを解消するスケジューラである。著者...
本記事は COLING 2025 “MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL” の解説記事です。 論文概要(Abstract) Text-to-SQLタスクにおいて、大規模データベーススキーマ(数十〜数百テーブル)への対応と複雑なクエリの正確なSQL生成は依然として困難な課題である。MAC-SQL(Mul...
本記事は Voyage AI Blog: The Voyage 4 model family: shared embedding space with MoE architecture の解説記事です。 ブログ概要(Summary) Voyage AI社は2026年1月、Embeddingモデルとして業界初のMixture of Experts(MoE)アーキテクチャを採用したVoyag...