論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点

本記事は arXiv:1404.7530（NeurIPS 2014採択）の解説記事です。

論文概要（Abstract）

Neu & Valko（2014）は、行動集合が確率的に変動し損失が敵対的に決まるオンライン組合せ最適化を初めて体系的に研究した。著者らはFollow-the-Perturbed-Leader（FPL）ベースのアルゴリズムを提案し、importance-weighted損失推定量を用いてfull-information設定で $O(\sqrt{K^2 T / p_{\min}})$、bandit設定で $O(K^{3/2}\sqrt{T / p_{\min}})$ のregret上界を証明した。この論文はsleeping組合せ最適化の分野を切り拓いた基礎研究であり、後続のCAT（arXiv:2604.25269）やFPL-BoBW（arXiv:2504.07307）の出発点となっている。

この記事は Zenn記事: Sleeping Banditの組合せ最適化：CAT手法によるregret改善の理論と実装の深掘りです。

情報源

arXiv ID: 1404.7530
URL: https://arxiv.org/abs/1404.7530
著者: Gergely Neu, Michal Valko
発表年: 2014（NeurIPS 2014採択）
分野: cs.LG, stat.ML

背景と動機（Background & Motivation）

2014年時点で、オンライン学習における行動の利用可能性変動は限定的にしか研究されていなかった。Kanade et al.（AISTATS 2009）とKleinberg et al.（Machine Learning Journal 2010）がsleeping expert問題のregret boundを確立していたが、行動空間がexpert（各行動が独立）に限られ、組合せ構造（スパニング木、マッチング、経路など）への拡張は未解決であった。

組合せ行動空間はexpert設定と本質的に異なる。行動数が指数的に大きく（$n$ 頂点のグラフのスパニング木は $n^{n-2}$ 個）、確率分布の明示的維持が計算的に困難となる。EXP4のようなexpert-to-bandit変換では計算量が指数的に爆発する。FPLは $\arg\min$ を多項式時間の組合せアルゴリズムで計算できるため、組合せ構造との相性が良い。

Neu & Valkoの動機は、この計算効率の利点を活かしつつ、sleeping設定での理論保証を確立することにあった。

主要な貢献（Key Contributions）

貢献1: 確率的行動集合 + 敵対的損失の組合せ設定（sleeping combinatorial optimization）を定式化
貢献2: FPL-Sleepingアルゴリズムの提案。importance-weighted損失推定量による利用可能性補正
貢献3: full-information regret $O(\sqrt{K^2 T / p_{\min}})$ の証明（Theorem 1）
貢献4: bandit regret $O(K^{3/2}\sqrt{T / p_{\min}})$ の証明（Theorem 2）

技術的詳細（Technical Details）

問題設定

$K$ 個の基底行動から構成される決定集合 $\mathcal{A} \subseteq {0,1}^K$ を考える。各ラウンド $t$ で以下が起こる。

利用可能集合 $A_t$ が未知の固定分布から生成される。各アーム $i$ は確率 $p_i$ で独立に利用可能
学習者が $A_t$ を観測し、行動 $\mathbf{a}_t \in A_t$ を選択
損失ベクトル $\boldsymbol{\ell}_t \in [0,1]^K$ が敵対的に決定され、学習者は損失 $\langle \boldsymbol{\ell}_t, \mathbf{a}_t \rangle$ を被る

$p_{\min} = \min_i p_i$ を最小利用可能確率とする。regretは「十分に高い頻度で利用可能な最適行動」との累積損失差として定義される。

この設定の重要な特徴は、行動集合の確率的変動と損失の敵対的決定が組み合わさっている点である。確率的バンディット（損失もi.i.d.）や完全敵対的バンディット（行動集合も敵対的）とは異なる独自の設定であり、実世界の多くの応用（センサーネットワーク、交通ルーティング、推薦システム）をモデル化する。

Importance-Weighted損失推定量

著者らの核心的なアイデアは、利用可能性確率 $p_i$ を用いた損失推定量の構成である。

\[\hat{\ell}_{t,i} = \frac{\ell_{t,i} \cdot \mathbf{1}[i \in A_t]}{p_i}\]

この推定量は不偏性を持つ。

\[\mathbb{E}[\hat{\ell}_{t,i}] = \frac{\ell_{t,i} \cdot \Pr[i \in A_t]}{p_i} = \frac{\ell_{t,i} \cdot p_i}{p_i} = \ell_{t,i}\]

ただし損失 $\ell_{t,i}$ が $A_t$ と独立に（敵対的に）決まる場合に限る。

FPL-Sleepingアルゴリズム

著者らが提案するアルゴリズム（論文 Section 3 より）：

入力: 決定集合構造、学習率 γ
初期化: L̂_0 = 0（累積推定損失）
for t = 1, ..., T:
  1. 摂動 Z_t ~ Exp(γ)^K を生成
  2. 利用可能集合 A_t を観測
  3. 行動選択: a_t = argmin_{a ∈ A_t} ⟨L̂_{t-1} + Z_t, a⟩
  4. 損失 ℓ_{t,i} (i ∈ A_t) を観測
  5. 推定損失を計算: ℓ̂_{t,i} = ℓ_{t,i} · 1[i ∈ A_t] / p_i
  6. 累積更新: L̂_t = L̂_{t-1} + ℓ̂_t

ステップ3でのargminは組合せ構造に応じた多項式時間アルゴリズムで計算する。sleeping設定であっても、FPLの$\arg\min$を利用可能集合$A_t$に制限するだけで自然に対応できる点が、FPLの大きな利点である。

Regret解析

Theorem 1（Full-Information Regret）の証明構造（論文 Section 4 より）：

FPLのregret分解は以下の形をとる。

\[R_T \leq \underbrace{\sum_{t=1}^T \mathbb{E}[\langle \hat{\boldsymbol{\ell}}_t, \mathbf{a}_t - \mathbf{a}^* \rangle]}_{\text{Stability Term}} + \underbrace{\frac{K}{\gamma}}_{\text{Perturbation Bias}}\]

Stability termの上界は推定損失の分散に依存する。

\[\sum_{t=1}^T \mathbb{E}[(\hat{\ell}_{t,i})^2] = \sum_{t=1}^T \frac{\ell_{t,i}^2}{p_i} \leq \frac{T}{p_i} \leq \frac{T}{p_{\min}}\]

$K$ 個のアームの合計で

\[\sum_{i=1}^K \sum_{t=1}^T \mathbb{E}[(\hat{\ell}_{t,i})^2] \leq \frac{KT}{p_{\min}}\]

FPLのstability解析により、stability termは $O(\gamma \cdot KT / p_{\min})$ で上界される。$\gamma = \sqrt{K / (KT / p_{\min})} = \sqrt{p_{\min} / T}$ と設定すると、全体のregretは以下となる。

\[R_T \leq O\left(\sqrt{\frac{K^2 T}{p_{\min}}}\right)\]

$K^2$ が現れる理由は、分散上界 $KT / p_{\min}$ にFPLのstabilityの $K$ ファクタが乗じられるためである。後続研究のCAT（arXiv:2604.25269）は、分散そのものを $T / p_{\min}$（$K$ 非依存）に抑えることでこのファクタを除去した。

Bandit設定の追加的困難

Bandit設定では選択した行動のコンポーネントの損失のみ観測できるため、二重のimportance weightingが必要となる。

\[\hat{\ell}_{t,i}^{\text{bandit}} = \frac{\ell_{t,i} \cdot \mathbf{1}[a_{t,i} = 1]}{p_i \cdot q_{t,i}}\]

ここで $q_{t,i}$ はアーム $i$ の選択確率であり、リサンプリングにより推定する。この二重の除算が分散を増大させ、$O(K^{3/2}\sqrt{T / p_{\min}})$ というfull-informationよりも劣る上界に帰結する。

実装のポイント（Implementation）

$p_i$ の推定: 実用上 $p_i$ は未知であることが多い。著者らは $p_i$ が既知であることを仮定しているが、標本平均 $\hat{p}i = \frac{1}{t}\sum{s=1}^t \mathbf{1}[i \in A_s]$ で推定する場合、初期フェーズで推定精度が低くなり regret が悪化する可能性がある。

摂動分布: Exponential分布（$Z_{t,i} \sim \text{Exp}(\gamma)$）を使用する。Gumbel摂動も同等の結果を与えるが、Exponential分布の方が実装が簡潔である。

$p_{\min}$ が極めて小さい場合: $p_{\min} \to 0$ では $1/p_i$ で除算する際に数値的不安定性が生じる。実装上は $p_i$ にフロア値（例: $p_i \geq 0.01$）を設定するか、利用可能性が極めて低いアームを事前に除外する。

  
import numpy as np

class FPLSleeping:
    """FPL-Sleeping: Neu & Valko (NeurIPS 2014) のアルゴリズム

    arXiv:1404.7530 Section 3 に基づく実装。
    """

    def __init__(
        self, d: int, availability_probs: np.ndarray, gamma: float,
    ):
        self.d = d
        self.p = np.maximum(availability_probs, 1e-6)
        self.gamma = gamma
        self.cumulative_estimated_loss = np.zeros(d)

    def select_action(
        self, available_actions: list[np.ndarray],
    ) -> np.ndarray:
        z = np.random.exponential(scale=self.gamma, size=self.d)
        scores = self.cumulative_estimated_loss + z
        return min(available_actions, key=lambda a: a @ scores)

    def update(
        self, loss: np.ndarray, available: np.ndarray,
    ) -> None:
        estimated = loss * available / self.p
        self.cumulative_estimated_loss += estimated

実験結果（Results）

著者らは合成データと実ネットワークで実験を行っている（論文 Section 6 より）。

実験設定	FPL-Sleeping	Naive FPL	EXP3 (sleeping)
Synthetic spanning tree	sublinear regret	linear regret	sublinear regret
Online shortest path	効率的	利用不可無視で性能低下	計算コスト大

著者らの実験によると、naive FPL（利用可能性を無視するFPL）は利用不可のアームの損失を正しく補正できないため、regretが線形に増大する。EXP3のsleeping適応版はregretは制御できるが、組合せ構造に対する計算コストが指数的に増大する。FPL-Sleepingはimportance weightingにより利用可能性を正しく補正しつつ、FPLの計算効率を維持する。

実運用への応用（Practical Applications）

Neu & Valkoが挙げる主要な応用シナリオは以下のとおりである。

センサーネットワーク: 故障・メンテナンスにより一部センサーが利用不可になるネットワークでの最適センサー選択。行動はセンサーの部分集合（組合せ構造）
交通ルーティング: 工事・事故による一時的な道路閉鎖がある環境での最短経路選択。各道路セグメントが独立に確率的に利用可能
広告配信: 広告在庫が確率的に変動する環境での広告ポートフォリオ最適化

これらの応用では $p_i$ が既知か容易に推定可能な場合が多く（センサーの平均稼働率、道路の平均通行可能率など）、FPL-Sleepingの前提条件を満たしやすい。

まとめと今後の展望

Neu & Valko（NeurIPS 2014）は、sleeping設定のオンライン組合せ最適化に対するFPLベースの効率的アルゴリズムを提供した。importance-weighted損失推定量による利用可能性補正は概念的にシンプルであり、組合せ構造への適用を容易にしている。

この論文が残したopen questionの一つ—full-information設定でのregretの$K$依存性の改善可能性—は、Tsuchiya et al.（2026）のCATアルゴリズム（arXiv:2604.25269）により肯定的に解決された。CATは分散上界を $1/p_i$ に改善することで $O(\sqrt{KT / p_{\min}})$ を達成し、matching lower boundで最適性を証明している。

参考文献

arXiv: https://arxiv.org/abs/1404.7530
NeurIPS 2014: https://papers.nips.cc/paper_files/paper/2014/hash/06da2cfb2088f776d522b5cdafe677ab-Abstract.html
Related Zenn article: https://zenn.dev/0h_n0/articles/7602fff38b7909
CAT Algorithm (2026): https://arxiv.org/abs/2604.25269

📄 論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

問題設定

Importance-Weighted損失推定量

FPL-Sleepingアルゴリズム

Regret解析

Bandit設定の追加的困難

実装のポイント（Implementation）

実験結果（Results）

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

問題設定

Importance-Weighted損失推定量

FPL-Sleepingアルゴリズム

Regret解析

Bandit設定の追加的困難

実装のポイント（Implementation）

実験結果（Results）

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善

📄 論文解説: Follow-the-Perturbed-LeaderによるBest-of-Both-Worlds保証 — Tsallis摂動の理論と組合せバンディットへの応用

📄 論文解説: Near-optimal Per-Action Regret Bounds for Sleeping Bandits — 行動ごとの最適regret保証