論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善

本記事は arXiv:2604.25269 の解説記事です。

論文概要（Abstract）

Tsuchiya, Ito, Honda（2026）は、行動の利用可能性が確率的に変動するオンライン組合せ最適化（sleeping設定）においてCAT（Combine-and-Transform）アルゴリズムを提案した。CATは利用可能性で重み付けした損失変換を核とし、full-information設定のregretをNeu & Valko（NeurIPS 2014）の $O(\sqrt{K^2 T / p_{\min}})$ から $O(\sqrt{KT / p_{\min}})$ に改善する。さらにmatching lower boundにより、この上界がnear-optimalであることを証明している。

この記事は Zenn記事: Sleeping Banditの組合せ最適化：CAT手法によるregret改善の理論と実装の深掘りです。

情報源

arXiv ID: 2604.25269
URL: https://arxiv.org/abs/2604.25269
著者: Taira Tsuchiya, Shinji Ito, Junya Honda
発表年: 2026
分野: cs.LG, stat.ML

背景と動機（Background & Motivation）

オンライン組合せ最適化では、学習者がスパニング木・マッチング・経路などの組合せ構造から行動を選択し、敵対的に決まる損失を最小化する。標準設定では行動集合が固定されるが、実世界では行動の利用可能性が変動する場面が多い。推薦システムにおける商品の在庫切れ、ネットワークルーティングにおけるリンク障害などがその例である。

Neu & Valko（NeurIPS 2014）はこの問題に対しFPL（Follow-the-Perturbed-Leader）ベースのアルゴリズムを初めて提案したが、full-information設定で $O(\sqrt{K^2 T / p_{\min}})$、bandit設定で $O(K^{3/2}\sqrt{T / p_{\min}})$ というregret上界にとどまっていた。$K$（基底行動数）への依存性が標準（non-sleeping）設定の下界より大きく、改善の余地が理論的に示唆されていた。

主要な貢献（Key Contributions）

貢献1: CATアルゴリズムの提案。利用可能性確率 $p_i$ で除算する損失変換により、分散の $K$ 依存性を $K^2$ から $K$ に削減
貢献2: full-information regretを $O(\sqrt{KT / p_{\min}})$ に改善。Neu & Valkoの $O(\sqrt{K^2 T / p_{\min}})$ から $\sqrt{K}$ 倍の改善
貢献3: matching lower bound $\Omega(\sqrt{KT / p_{\min}})$ を構成し、full-information設定でのnear-optimalityを証明
貢献4: bandit設定で $O(\sqrt{K^3 T / p_{\min}})$ のregret上界を達成

技術的詳細（Technical Details）

問題設定

$K$ 個の基底行動（アーム）から構成される決定集合 $\mathcal{A} \subseteq {0,1}^K$ を考える。各ラウンド $t = 1, \ldots, T$ で以下が起こる。

環境が利用可能集合 $A_t$ を生成（各アーム $i$ は確率 $p_i$ で独立に利用可能）
学習者が $A_t$ を観測し行動 $\mathbf{a}_t \in A_t$ を選択
敵対的に決まる損失ベクトル $\boldsymbol{\ell}_t \in [0,1]^K$ に対し損失 $\langle \boldsymbol{\ell}_t, \mathbf{a}_t \rangle$ を被る

ここで $p_{\min} = \min_i p_i$ を最小利用可能確率とする。

CATの核心：利用可能性重み付け損失変換

CATの鍵は損失推定量の構成にある。従来手法（Neu & Valko）は importance-weighted estimator を使用していたが、その分散が $O(1/p_i^2)$ となり $K$ 項の合計で $O(K^2 T / p_{\min})$ のregretに帰結していた。

CATは以下の変換を用いる。

\[\tilde{\ell}_{t,i} = \frac{\ell_{t,i} \cdot \mathbf{1}[i \in A_t]}{p_i}\]

ここで $\mathbf{1}[i \in A_t]$ はアーム $i$ がラウンド $t$ で利用可能かどうかの指示関数である。

この推定量の分散は以下のように抑えられる。

\[\mathbb{E}[(\tilde{\ell}_{t,i})^2] = \mathbb{E}\left[\frac{\ell_{t,i}^2 \cdot \mathbf{1}[i \in A_t]}{p_i^2}\right] = \frac{\ell_{t,i}^2}{p_i} \leq \frac{1}{p_i}\]

従来手法では $\mathbb{E}[(\hat{\ell}_{t,i})^2] \leq 1/p_i^2$ であったのに対し、CATでは $1/p_i$ に改善されている。この改善がregret上界の $K$ 依存性を $K^2$ から $K$ に削減する根拠となる。

アルゴリズム：CAT（Full-Information版）

著者らが提案するCATアルゴリズム（論文 Section 3 Algorithm 1 より）の構造を以下に示す。

入力: 決定集合構造、学習率 η、摂動スケール γ
for t = 1, ..., T:
利用可能集合 A_t を観測
摂動 Z_t ~ Exp(γ)^K を生成
変換損失を計算: ℓ̃_{t,i} = ℓ_{t,i} · 1[i ∈ A_t] / p_i
行動選択: a_t = argmin_{a ∈ A_t} ⟨Σ_{s<t} ℓ̃_s + Z_t, a⟩
損失 ℓ_{t,i} (i ∈ A_t) を観測

ステップ3の損失変換が従来のFPL-Sleepingとの本質的な違いである。$p_i$ で除算することで、累積変換損失が「実効的な」累積損失の不偏推定量となり、確率的利用可能性の影響を相殺する。

Bandit版の拡張

Semi-bandit設定では選択した行動の損失のみ観測できるため、追加の推定が必要になる。CATのbandit版では importance-weighted estimator を組み合わせる。

\[\hat{\ell}_{t,i} = \frac{\ell_{t,i} \cdot \mathbf{1}[i \in \mathbf{a}_t]}{p_i \cdot q_{t,i}}\]

ここで $q_{t,i}$ はアーム $i$ のラウンド $t$ での周辺選択確率である。$p_i$ と $q_{t,i}$ の両方で除算する二重の importance weighting が特徴的である。

Regret解析の骨子

Theorem 1（Full-Information Regret）の証明概略（論文 Appendix A より）：

標準的なFPLのregret分解は以下の形をとる。

\[R_T \leq \sum_{t=1}^T \mathbb{E}[\langle \tilde{\boldsymbol{\ell}}_t, \mathbf{a}_t - \mathbf{a}^* \rangle] + \text{Perturbation Bias}\]

鍵となるステップは累積分散の上界である。各アーム $i$ について、

\[\sum_{t=1}^T \text{Var}[\tilde{\ell}_{t,i}] \leq \frac{T}{p_i} \leq \frac{T}{p_{\min}}\]

$K$ 個のアームの合計で累積分散は $O(KT / p_{\min})$ となる。著者らはmatrix stability arguments（論文 Proposition 4）を用いてこの分散上界をFPLのregretに結び付け、最終的に以下を得ている。

\[R_T \leq O\left(\sqrt{\frac{KT}{p_{\min}}}\right)\]

学習率は $\eta = \sqrt{K / (T p_{\min})}$ と設定する。

下界の構成

Theorem 3（Lower Bound）: 任意のアルゴリズムに対し、full-information sleeping設定で以下を満たす問題インスタンスが存在する。

\[R_T \geq \Omega\left(\sqrt{\frac{KT}{p_{\min}}}\right)\]

この下界は上界と一致し、CATのfull-information regretがnear-optimalであることを証明する。著者らはLe Cam法を用いた仮説検定ベースの構成を採用している。

実装のポイント（Implementation）

CATの実装における注意点を以下にまとめる。

利用可能性確率 $p_i$ の既知性: CATは $p_i$ が既知であることを前提とする。実用上 $p_i$ が未知の場合、標本平均 $\hat{p}i = \frac{1}{t} \sum{s=1}^t \mathbf{1}[i \in A_s]$ で推定する必要がある。ただし推定誤差がregretに与える影響は論文の分析範囲外であり、理論保証が変わる可能性がある。

組合せ最適化のオラクル: ステップ4の $\arg\min$ は組合せ構造に応じて効率的に計算可能である。スパニング木ならKruskal法（$O(K \log K)$）、最短経路ならDijkstra法（$O(K + V \log V)$）、マッチングならHungarian法（$O(V^3)$）を使う。

$p_{\min}$ が小さい場合の注意: $p_{\min} \to 0$ ではregretが発散する。著者らの実験でも、$p_{\min}$ が小さい環境での改善が顕著であると報告されている。

  
import numpy as np

class CATAlgorithm:
    """CAT (Combine-and-Transform) アルゴリズム (Full-Information版)

    arXiv:2604.25269 Section 3, Algorithm 1 に基づく実装。
    """

    def __init__(self, d: int, availability_probs: np.ndarray, eta: float):
        self.d = d
        self.p = availability_probs
        self.eta = eta
        self.cumulative_transformed_loss = np.zeros(d)

    def select_action(
        self, available_actions: list[np.ndarray],
    ) -> np.ndarray:
        perturbation = np.random.exponential(scale=1.0, size=self.d)
        scores = self.eta * self.cumulative_transformed_loss - perturbation
        best_action = min(available_actions, key=lambda a: a @ scores)
        return best_action

    def update(
        self, loss: np.ndarray, available: np.ndarray,
    ) -> None:
        transformed = loss * available / self.p
        self.cumulative_transformed_loss += transformed

実験結果（Results）

著者らは3つの実験設定でCATを評価している（論文 Section 5 より）。

実験設定	規模	CAT	Neu & Valko (2014)	改善
Synthetic spanning tree	N=20, K=100	低regret	中程度	K依存性の改善が顕著
OpenStreetMap shortest path	実データ	低regret	高regret	大規模グラフで差が拡大
推薦（在庫制約付き）	実データ	低regret	中程度	$p_{\min}$小で改善大

論文 Section 5 の実験結果によると、$p_{\min}$ が小さい環境（利用不可が頻繁に発生する環境）でCATの優位性が際立つ。著者らは「CATの利用可能性重み付け損失変換が、高い利用不可率の環境で自動的に適応する」と述べている。

bandit設定の実験では、CATは marginal selection probability $q_{t,i}$ のリサンプリング推定にモンテカルロ法を用いており、リサンプリング回数 $M$ の増加に伴いregretが安定化する傾向が報告されている。

実運用への応用（Practical Applications）

CATアルゴリズムが直接適用できる実務シナリオとして、以下が論文で言及されている。

推薦システム: ECサイトで商品の在庫状況が確率的に変動する場合、CATは在庫確率で損失を正規化し、利用可能な商品組合せの最適推薦を効率的に学習する
ネットワークルーティング: リンク障害が確率的に発生するネットワークにおいて、利用可能な経路から最短経路を逐次学習する。OpenStreetMapデータでの実験がこの応用を実証している
広告配信: 広告枠の在庫が確率的に変動する環境でのポートフォリオ最適化

いずれの応用でも、$p_i$ の推定精度がアルゴリズム性能に直結するため、十分なウォームアップ期間を設けることが実用上の課題となる。

まとめと今後の展望

CATアルゴリズムは、sleeping組合せ最適化のfull-information regretを $O(\sqrt{KT / p_{\min}})$ に改善し、matching lower boundでnear-optimalityを証明した。損失変換 $\tilde{\ell}{t,i} = \ell{t,i} \cdot \mathbf{1}[i \in A_t] / p_i$ という単純な操作が、分散を $1/p_i^2$ から $1/p_i$ に削減する点が理論的に重要である。

今後の研究方向として、著者らはbandit設定のtight lower bound（現在は未解決）と、adversarial availability（利用可能性も敵対的に決まる設定）への拡張を挙げている。

参考文献

arXiv: https://arxiv.org/abs/2604.25269
Related Zenn article: https://zenn.dev/0h_n0/articles/7602fff38b7909
Neu & Valko (NeurIPS 2014): https://arxiv.org/abs/1404.7530
Tsuchiya & Ito (2025): https://arxiv.org/abs/2504.07307

📄 論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

問題設定

CATの核心：利用可能性重み付け損失変換

アルゴリズム：CAT（Full-Information版）

Bandit版の拡張

Regret解析の骨子

下界の構成

実装のポイント（Implementation）

実験結果（Results）

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

📄 論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善

論文概要（Abstract）

情報源

背景と動機（Background & Motivation）

主要な貢献（Key Contributions）

技術的詳細（Technical Details）

問題設定

CATの核心：利用可能性重み付け損失変換

アルゴリズム：CAT（Full-Information版）

Bandit版の拡張

Regret解析の骨子

下界の構成

実装のポイント（Implementation）

実験結果（Results）

実運用への応用（Practical Applications）

関連研究（Related Work）

まとめと今後の展望

参考文献

関連記事

📄 論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点

📄 論文解説: Follow-the-Perturbed-LeaderによるBest-of-Both-Worlds保証 — Tsallis摂動の理論と組合せバンディットへの応用

📄 論文解説: Sleeping Competing Bandits — Dueling Banditのsleeping拡張とregret解析