論文解説: Llumnix — マルチインスタンスLLMサービングの動的スケジューリングとライブマイグレーション

本記事は Llumnix: Dynamic Scheduling for Large Language Model Serving の解説記事です。

論文概要（Abstract）

LLMサービングにおいて、複数インスタンスへのリクエスト分配は従来のロードバランサ（round-robin、least-connections等）では不十分である。著者らは、リクエストをKVキャッシュごとインスタンス間でライブマイグレーションするLlumnixを提案している。グローバルスケジューラとインスタンスローカルスケジューラの階層構造により、負荷の偏りをリアルタイムに解消し、P99レイテンシを最大2.2倍改善すると報告されている。

この記事は Zenn記事: Ollama v0.24×Docker Composeで構築するオンプレLLM推論基盤の実践ガイドの深掘りです。

情報源

arXiv ID: 2405.03869
URL: https://arxiv.org/abs/2405.03869
著者: Biao Sun, Ziming Huang, Hanyu Zhao, et al.（Alibaba Cloud）
発表年: 2024
分野: cs.DC, cs.LG

背景と動機（Background & Motivation）

Zenn記事ではNginxのleast_connディレクティブでOllamaインスタンスへのロードバランシングを実現している。しかし、LLM推論には以下の特性があり、従来のHTTPロードバランサでは最適な分配ができない。

リクエスト間の処理時間差が極めて大きい: プロンプト長と生成長に依存し、数百msから数十秒まで幅がある
リクエスト処理中にリソース消費が動的に変化: デコードが進むにつれてKVキャッシュが成長し、VRAM消費が増大する
リクエスト完了前にリバランスできない: 従来システムではリクエストをインスタンスにディスパッチした後は移動できない

著者らは「リクエストの再スケジューリング（rescheduling）」、つまり処理中のリクエストをKVキャッシュごと別インスタンスに移送する機構が必要であると主張している。

主要な貢献（Key Contributions）

KVキャッシュのライブマイグレーション: 処理中のリクエストのKVキャッシュをブロック単位で別GPUインスタンスに転送し、推論を中断せずに移送完了する
階層型スケジューラ: グローバルキュー（インスタンス間分配）とローカルキュー（インスタンス内優先度制御）の2層で構成
3つのreschedulingポリシー: DefragConstrained、DefragRelaxed、Loadの3つの戦略を提供

技術的詳細（Technical Details）

アーキテクチャ

graph TD
    Client[クライアント] --> GS[グローバルスケジューラ]
    GS -->|"初期ディスパッチ"| I1[Instance 1<br/>ローカルスケジューラ]
    GS -->|"初期ディスパッチ"| I2[Instance 2<br/>ローカルスケジューラ]
    GS -->|"初期ディスパッチ"| I3[Instance 3<br/>ローカルスケジューラ]
    I1 <-->|"KVキャッシュ<br/>マイグレーション"| I2
    I2 <-->|"KVキャッシュ<br/>マイグレーション"| I3
    GS -.->|"負荷監視"| I1
    GS -.->|"負荷監視"| I2
    GS -.->|"負荷監視"| I3

グローバルスケジューラの動作

グローバルスケジューラは各インスタンスの負荷状態を監視し、以下の2つの操作を行う。

ディスパッチ: 新規リクエストを最適なインスタンスに振り分ける。振り分け基準はreschedulingポリシーに依存する。

リスケジューリング: 負荷の偏りを検知した場合、処理中のリクエストをKVキャッシュごと別インスタンスに移送する。

負荷指標の定義

著者らは各インスタンスの負荷を以下の指標で定量化している。

\[L_i = \frac{M_i^{\text{used}}}{M_i^{\text{total}}} + \alpha \cdot \frac{Q_i}{Q_{\max}}\]

ここで、

$L_i$: インスタンス$i$の負荷スコア
$M_i^{\text{used}} / M_i^{\text{total}}$: VRAMの使用率（KVキャッシュのブロック占有率）
$Q_i$: インスタンス$i$のキュー内リクエスト数
$Q_{\max}$: キューの最大長
$\alpha$: キュー長の重み（デフォルト0.5）

3つのReschedulingポリシー

DefragConstrained: VRAMの断片化を解消するために、空きブロックが少ないインスタンスからリクエストを移送する。移送先は空きブロックが最も多いインスタンスとする。コンパクションに相当する。

DefragRelaxed: DefragConstrainedに加え、インスタンス間のブロック使用率を均等化する。偏りが閾値を超えた場合にのみ発動する。

Load: キュー長ベースでリバランスする。キュー長が平均の2倍を超えたインスタンスから、平均未満のインスタンスにリクエストを移送する。

  
def should_reschedule(instances: list[dict]) -> list[tuple[int, int]]:
    """Loadポリシーに基づくリスケジューリング判定

    Returns:
        移送するリクエストの (src_instance, dst_instance) ペアのリスト
    """
    avg_queue = sum(i["queue_len"] for i in instances) / len(instances)
    migrations = []

    overloaded = [i for i in instances if i["queue_len"] > avg_queue * 2]
    underloaded = [i for i in instances if i["queue_len"] < avg_queue]
    underloaded.sort(key=lambda x: x["queue_len"])

    for src in overloaded:
        if not underloaded:
            break
        dst = underloaded[0]
        excess = src["queue_len"] - int(avg_queue)
        for _ in range(min(excess, 3)):  # 1回あたり最大3リクエスト移送
            migrations.append((src["id"], dst["id"]))
        underloaded.sort(key=lambda x: x["queue_len"])

    return migrations

KVキャッシュのライブマイグレーション

マイグレーションはブロック単位で行われ、以下の手順で実行される。

転送元: 対象リクエストのデコードを一時停止する
ブロックコピー: KVキャッシュのブロックを転送先GPUメモリにコピーする（RDMA or CPU中継）
ブロックテーブル更新: 転送先でブロックテーブルを再構築する
推論再開: 転送先でデコードを再開する

マイグレーション中のレイテンシオーバーヘッドは以下のように見積もられる。

\[T_{\text{mig}} = \frac{n_{\text{blocks}} \times B_{\text{block}}}{BW_{\text{network}}} + T_{\text{setup}}\]

ここで、

$n_{\text{blocks}}$: 移送するブロック数
$B_{\text{block}}$: 1ブロックのデータサイズ（バイト）
$BW_{\text{network}}$: ネットワーク帯域（バイト/秒）
$T_{\text{setup}}$: セットアップ時間（ブロックテーブル再構築等、通常1〜5ms）

LLaMA-7Bで256トークンのKVキャッシュ（約16ブロック）を移送する場合、10GbEで約5ms、RDMA（InfiniBand HDR: 200Gb/s）で約0.2msの転送時間となる。

実験結果（Results）

P99レイテンシの改善

著者らはA10G × 4〜8インスタンス構成で評価を行っている。論文Table 2より以下の結果が報告されている。

モデル	インスタンス数	ベースライン P99 JCT	Llumnix P99 JCT	改善倍率
LLaMA-2-7B	4	12.3s	6.8s	1.81x
LLaMA-2-7B	8	14.1s	6.4s	2.20x
LLaMA-2-13B	4	18.7s	10.2s	1.83x

インスタンス数が多いほど改善倍率が大きくなる。これはマイグレーション先の選択肢が増え、負荷均等化の自由度が高まるためである。

マイグレーションオーバーヘッド

論文Figure 12より、マイグレーションのオーバーヘッドは以下のように報告されている。

転送方式	オーバーヘッド（P50）	オーバーヘッド（P99）
RDMA（InfiniBand）	0.8ms	2.1ms
CPU中継（10GbE）	12ms	35ms

RDMAを使用できる場合、マイグレーションのオーバーヘッドは推論レイテンシに対して無視できるレベルである。

スループットへの影響

論文Figure 10によると、マイグレーションの発動頻度は全リクエストの3〜8%であり、スループットへの影響は2%未満にとどまると報告されている。

実装のポイント（Implementation）

NginxロードバランサとLlumnixの比較

Zenn記事で使用されているNginxのleast_conn方式とLlumnixのアプローチを比較する。

特性	Nginx least_conn	Llumnix
振り分けタイミング	リクエスト受信時のみ	リクエスト受信時 + 処理中の動的リバランス
負荷指標	TCP接続数	VRAM使用率 + キュー長
リクエスト移送	不可	KVキャッシュごとライブマイグレーション
導入コスト	低（Nginx設定のみ）	高（vLLM互換バックエンド必要）
適用規模	2〜4インスタンス	4〜16インスタンス

Prometheus指標の追加

Llumnixの概念をOllama + Nginx構成で部分的に実現するために、以下のPrometheusカスタム指標を追加できる。

  
from prometheus_client import Gauge, Histogram

vram_usage = Gauge(
    "ollama_instance_vram_usage_ratio",
    "VRAM usage ratio per instance",
    ["instance_id"],
)
queue_length = Gauge(
    "ollama_instance_queue_length",
    "Request queue length per instance",
    ["instance_id"],
)
migration_duration = Histogram(
    "llm_migration_duration_seconds",
    "KV cache migration duration",
    buckets=[0.001, 0.005, 0.01, 0.05, 0.1, 0.5, 1.0],
)

これらの指標をGrafanaで可視化し、負荷の偏りをモニタリングすることで、手動でのリクエスト再配分のトリガーとして活用できる。

Nginxでの動的重み付け

Llumnixの完全な実装は困難だが、NginxのUpstreamモジュールで重み付きロードバランシングを行い、定期的に重みを更新する簡易版は以下のように構成できる。

  
upstream ollama_backend {
    # 動的に重み更新可能（nginx -s reload で反映）
    server ollama-1:11434 weight=5 max_fails=3 fail_timeout=30s;
    server ollama-2:11434 weight=5 max_fails=3 fail_timeout=30s;
}

重みの更新はPrometheusから取得したVRAM使用率に基づいてcronジョブで自動化できる。

実運用への応用（Practical Applications）

段階的導入: まずNginx least_connで運用を開始し、インスタンス数が4台以上になった時点でLlumnixまたは類似のスマートスケジューラへの移行を検討する
GPU使用率のモニタリング: Zenn記事で紹介されているDCGM ExporterのVRAM指標をスケジューリング判定に活用する
ヘテロジニアス構成: 異なるGPU（RTX 3080 + RTX 4090等）が混在する場合、VRAM容量に応じた重み付けとKVキャッシュサイズ制限の組み合わせが有効

まとめと今後の展望

Llumnixは、LLMサービングにおけるマルチインスタンスのロードバランシング問題に対して、KVキャッシュのライブマイグレーションという手法で根本的な解決を図った。P99レイテンシの2.2倍改善は、tail latencyが問題となる本番サービスにおいて実用的な価値がある。

Docker Compose + Nginx構成でオンプレLLM推論基盤を運用する場合、インスタンス数が少ない段階ではleast_connで十分だが、規模拡大に伴いスマートスケジューリングの必要性が増す。Llumnixの概念を段階的に取り入れることで、スケーラブルな推論基盤を構築できる。

参考文献

arXiv: https://arxiv.org/abs/2405.03869
Code: https://github.com/AlibabaPAI/llumnix
Related Zenn article: https://zenn.dev/0h_n0/articles/dfcfed8523c1e3
Sun, B., Huang, Z., Zhao, H., et al. “Llumnix: Dynamic Scheduling for Large Language Model Serving.” arXiv:2405.03869, 2024.
Kwon, W., et al. “Efficient Memory Management for Large Language Model Serving with PagedAttention.” SOSP 2023.

:::message 本記事はAI（Claude Code）により自動生成されました。論文の内容を正確に伝えることを目的としていますが、解釈の誤りがある可能性があります。正確な情報は原論文をご確認ください。 :::

📄 論文解説: Llumnix — マルチインスタンスLLMサービングの動的スケジューリングとライブマイグレーション

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

アーキテクチャ

グローバルスケジューラの動作

負荷指標の定義

3つのReschedulingポリシー

KVキャッシュのライブマイグレーション

実験結果（Results）

P99レイテンシの改善

マイグレーションオーバーヘッド

スループットへの影響

実装のポイント（Implementation）

NginxロードバランサとLlumnixの比較

Prometheus指標の追加

Nginxでの動的重み付け

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: Llumnix — マルチインスタンスLLMサービングの動的スケジューリングとライブマイグレーション

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

アーキテクチャ

グローバルスケジューラの動作

負荷指標の定義

3つのReschedulingポリシー

KVキャッシュのライブマイグレーション

実験結果（Results）

P99レイテンシの改善

マイグレーションオーバーヘッド

スループットへの影響

実装のポイント（Implementation）

NginxロードバランサとLlumnixの比較

Prometheus指標の追加

Nginxでの動的重み付け

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

📄 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化