📄 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション

本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイドの深掘りです。論文概要（Abstract）著者ら（Alibaba Cloud）は、既存のLLMサービン...

11/05/2026 blog paper

LLM inference scheduling +6

✍️ Meta Engineering解説: LLM推論スケーリングにおけるテンソル・コンテキスト・エキスパート並列化

本記事は Scaling LLM Inference: Innovations in Tensor Parallelism, Context Parallelism, and Expert Parallelism（Engineering at Meta, 2025年10月17日公開）の解説記事です。この記事は Zenn記事: Ollama v0.23×Docker Composeで構築す...

11/05/2026 blog tech_blog

LLM inference tensor-parallelism +6

📄 論文解説: PowerInfer - コンシューマGPUでの高速LLM推論エンジン

本記事は PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU の解説記事です。この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイドの深掘りです。論文概要（Abstract）著者ら（上海交通大学 IPADS研究室...

11/05/2026 blog paper

LLM inference consumer-GPU +4

📄 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化

本記事は DistServe: Disaggregating Prefill and Decoding for Goodput-optimized Large Language Model Serving（OSDI 2024）の解説記事です。この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイドの深掘りです。 ...

11/05/2026 blog paper

LLM inference distributed-systems +4

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention（SOSP 2023）の解説記事です。この記事は Zenn記事: Ollama v0.23×Docker Composeで構築するマルチGPU分散推論クラスタ実践ガイドの深掘りです。論文概要（Abstract） ...

11/05/2026 blog paper

LLM inference memory-management +5

📄 論文解説: APIGen — 検証可能なFunction Callingデータセット自動生成パイプライン

本記事は APIGen: Automated Pipeline for Generating Verifiable and Diverse Function-Calling Datasets の解説記事です。論文概要（Abstract） APIGenは、LLMのFunction Calling能力を向上させるための検証可能かつ多様な訓練データセットを自動生成するパイプラインである。21...

10/05/2026 blog paper

Function Calling Dataset Generation LLM +3

📄 論文解説: Seal-Tools — ネスト関数呼び出しを含むツール学習データセットと3次元評価

本記事は Seal-Tools: Self-Instruct Tool Learning Dataset for Agent Tuning and Detailed Benchmark の解説記事です。論文概要（Abstract） Seal-Toolsは、LLMのツール使用能力を訓練・評価するために設計されたSelf-Instruct方式のデータセットである。4,076個のAPI風ツー...

10/05/2026 blog paper

Function Calling Dataset Tool Use +3

📄 論文解説: API-Bank — ツール拡張LLMの3段階ベンチマーク

本記事は API-Bank: A Comprehensive Benchmark for Tool-Augmented LLMs の解説記事です。論文概要（Abstract） API-Bankは、ツール拡張LLM（Tool-Augmented LLM）を体系的に評価するために設計されたベンチマークである。著者らは73種の実行可能なAPIツールを実装し、314件のツール利用対話（753件...

10/05/2026 blog paper

Function Calling Benchmark Tool Use +3

📄 論文解説: NexusRaven — Function Calling特化オープンソースLLMの設計と評価

本記事は NexusRaven: a Commercially-Permissive Language Model for Function Calling の解説記事です。論文概要（Abstract） NexusRaven-13Bは、CodeLLAMA-13Bをベースとしたfunction calling特化のオープンソース言語モデルである。著者らは、多くのオープンソースモデルが高品...

10/05/2026 blog paper

Function Calling LLM Open Source +3

✍️ Vercel AI SDK 6解説: エージェント抽象化と型安全なFunction Callingフレームワーク

ブログ概要（Summary）本記事は AI SDK 6 - Vercel の解説記事です。 AI SDK 6は、Vercelが公開したTypeScriptベースのLLMアプリケーション構築フレームワークのメジャーバージョンアップである。v3 Language Model Specificationに基づき、ToolLoopAgentクラスによるエージェント抽象化、needsApprov...

10/05/2026 blog tech_blog

TypeScript AI SDK Function Calling +4

1
2
3
4
...
114
3 / 114