本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイド の深掘りです。 論文概要(Abstract) 著者ら(Alibaba Cloud)は、既存のLLMサービン...
本記事は Scaling LLM Inference: Innovations in Tensor Parallelism, Context Parallelism, and Expert Parallelism(Engineering at Meta, 2025年10月17日公開)の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築す...
本記事は PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイド の深掘りです。 論文概要(Abstract) 著者ら(上海交通大学 IPADS研究室...
本記事は DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving(OSDI 2024)の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイド の深掘りです。 ...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention(SOSP 2023)の解説記事です。 この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイド の深掘りです。 論文概要(Abstract) ...
本記事は APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets の解説記事です。 論文概要(Abstract) APIGenは、LLMのFunction Calling能力を向上させるための検証可能かつ多様な訓練データセットを自動生成するパイプラインである。21...
本記事は Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark の解説記事です。 論文概要(Abstract) Seal-Toolsは、LLMのツール使用能力を訓練・評価するために設計されたSelf-Instruct方式のデータセットである。4,076個のAPI風ツー...
本記事は API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs の解説記事です。 論文概要(Abstract) API-Bankは、ツール拡張LLM(Tool-Augmented LLM)を体系的に評価するために設計されたベンチマークである。著者らは73種の実行可能なAPIツールを実装し、314件のツール利用対話(753件...
本記事は NexusRaven: a Commercially-Permissive Language Model for Function Calling の解説記事です。 論文概要(Abstract) NexusRaven-13Bは、CodeLLAMA-13Bをベースとしたfunction calling特化のオープンソース言語モデルである。著者らは、多くのオープンソースモデルが高品...
ブログ概要(Summary) 本記事は AI SDK 6 - Vercel の解説記事です。 AI SDK 6は、Vercelが公開したTypeScriptベースのLLMアプリケーション構築フレームワークのメジャーバージョンアップである。v3 Language Model Specificationに基づき、ToolLoopAgentクラスによるエージェント抽象化、needsApprov...