本記事は arXiv:2401.02954 MuxServe: Flexible Spatial-Temporal Multiplexing for Multiple LLM Serving の解説記事です。 論文概要(Abstract) MuxServeは、複数のLLMを単一GPU(またはGPUクラスタ)上で効率的にサービングするために、空間的多重化(GPU Streaming Mul...
本記事は vLLM Performance Tuning: The Ultimate Guide to xPU Inference Configuration の解説記事です。 ブログ概要(Summary) Google CloudのField Solution ArchitectであるEric Hanleyらが2025年8月に公開したこのブログ記事は、vLLMの推論パフォーマンスを体系...
本記事は arXiv:2406.03243 ServerlessLLM: Low-Latency Serverless Inference for Large Language Models の解説記事です。 論文概要(Abstract) ServerlessLLMは、サーバレス(scale-to-zero)環境でLLM推論を行う際のコールドスタート問題を解決するシステムである。著者らは...
本記事は Closing the efficiency gap in LLM serving with model co-hosting with Vertex AI の解説記事です。 ブログ概要(Summary) Google Cloudのエンジニアリングチーム(Ivan Nardini, Kathy Yu, Jiuqiang Tang)が2026年3月に公開したこのブログ記事は、Ve...
本記事は arXiv:2309.06180 Efficient Memory Management for Large Language Model Serving with PagedAttention の解説記事です。 論文概要(Abstract) PagedAttentionは、OSの仮想メモリにおけるページング機構に着想を得たアテンションアルゴリズムであり、LLM推論時のKVキャ...
本記事は arXiv:2503.23278 Model Context Protocol (MCP): Landscape, Security Threats, and Future Research Directions の解説記事です。 論文概要(Abstract) 本論文は、Anthropicが2024年11月に発表したModel Context Protocol(MCP)に対する...
論文概要 本記事は Advanced ingestion process powered by LLM parsing for RAG system (arXiv:2412.15262) の解説記事です。Retrieval Augmented Generation(RAG)システムにおいて、多様な構造を持つマルチモーダル文書の処理は依然として大きな課題である。本論文では、LLMパワードOC...
本記事は arXiv:2409.00920 ToolACE: Winning the Points of LLM Function Calling の解説記事です。 論文概要(Abstract) ToolACEは、LLMのFunction Calling能力を向上させるための高品質な訓練データを自動生成するパイプラインである。著者らは自己進化的合成プロセスにより26,507個の多様なAP...
論文概要 本記事は Jina-ColBERT-v2 (arXiv:2408.16672) の解説記事です。Jina-ColBERT-v2は、ColBERTアーキテクチャに基づく多言語対応のLate Interactionリトリーバーである。XLM-RoBERTaをバックボーンに採用し、Matryoshka Representation Learning(MRL)による柔軟な次元選択、Rot...
本記事は arXiv:2408.02442 Let Me Speak Freely? A Study on the Impact of Format Restrictions on Performance of Large Language Models の解説記事です。 論文概要(Abstract) 本論文は、JSON、XML、YAML等の構造化出力フォーマットがLLMの推論能力および...