Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Near-optimal Per-Action Regret Bounds for Sleeping Bandits — 行動ごとの最適regret保証

本記事は arXiv:2403.01315 の解説記事です。 論文概要(Abstract) Pacchiano, Muthukumar, Bartlett(2024)は、sleeping bandit問題に新たなregret尺度「per-action regret」を導入した。従来のglobal regretが「常に利用可能な最適行動」との比較であるのに対し、per-action reg...

📄 論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点

本記事は arXiv:1404.7530(NeurIPS 2014採択)の解説記事です。 論文概要(Abstract) Neu & Valko(2014)は、行動集合が確率的に変動し損失が敵対的に決まるオンライン組合せ最適化を初めて体系的に研究した。著者らはFollow-the-Perturbed-Leader(FPL)ベースのアルゴリズムを提案し、importance-weig...

📄 論文解説: Follow-the-Perturbed-LeaderによるBest-of-Both-Worlds保証 — Tsallis摂動の理論と組合せバンディットへの応用

本記事は arXiv:2504.07307 の解説記事です。 論文概要(Abstract) Tsuchiya & Ito(2025)は、Follow-the-Perturbed-Leader(FPL)アルゴリズムにTsallis型摂動分布を導入することで、オンライン組合せ最適化においてBest-of-Both-Worlds(BoBW)保証を達成した。FPLは組合せ構造に対して計算...

✍️ NVIDIA公式技術ブログ解説: Nemotron 3 Nano Omniのマルチモーダルエージェント推論アーキテクチャ

本記事は NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model の解説記事です。 ブログ概要(Summary) NVIDIAが2026年4月28日に公開したこの技術ブログでは、Nemotron 3 Nano Omniの設計思想、訓練パイプライン、ベンチマ...

✍️ Anthropic Engineering解説: マルチエージェント研究システムの構築

Anthropic Engineering解説: マルチエージェント研究システムの構築 ブログ概要 本記事は Anthropic Engineering Blog: How we built our multi-agent research system の解説記事です。 Anthropicのエンジニアリングチームは、Claude.aiに搭載されるリサーチ機能の中核としてOrchest...

📄 論文解説: AI手法 vs 分子動力学シミュレーション — cryptic pocket検出の定性・定量比較

論文概要(Abstract) 本論文は、タンパク質に存在するcryptic pocket(隠れたポケット)の検出において、AI手法(AlphaFlow、BioEmu、PocketMiner、CryptoBank)と物理ベースの分子動力学(MD)シミュレーション(FAST、FAST+seeding)の予測能力を体系的に比較した研究である。エボラウイルスVP35のインターフェロン阻害ドメインお...

📄 論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善

本記事は arXiv:2604.25269 の解説記事です。 論文概要(Abstract) Tsuchiya, Ito, Honda(2026)は、行動の利用可能性が確率的に変動するオンライン組合せ最適化(sleeping設定)においてCAT(Combine-and-Transform)アルゴリズムを提案した。CATは利用可能性で重み付けした損失変換を核とし、full-informati...

📄 論文解説: Octo ─ オープンソース汎用ロボットポリシーの設計と実践

論文概要(Abstract) 本記事は arXiv:2405.12213 Octo: An Open-Source Generalist Robot Policy の解説記事です。 OctoはUC Berkeley、Stanford、CMU等の共同研究により2024年5月に発表された、約93Mパラメータのオープンソース汎用ロボットポリシーである。Open X-Embodimentデータセ...

📄 論文解説: Scaling LLM Test-Time Compute Optimally

論文概要(Abstract) 本記事は Scaling LLM Test-Time Compute論文 (arXiv:2408.03314) の解説記事です。 著者らは、LLMの推論時(test-time)に追加のコンピュートを投入する際、その配分方法を最適化すれば、事前学習時にモデルパラメータをスケールするよりも効率的に性能を向上できることを示している。具体的には、MATHベンチマーク...

📄 論文解説: Jamba — Transformer-Mamba-MoEハイブリッド言語モデルの設計原理

本記事は Jamba: A Hybrid Transformer-Mamba Language Model の解説記事です。 論文概要(Abstract) Jambaは、AI21 Labsが2024年3月に発表した、Transformer Attention、Mamba SSM、Mixture of Experts(MoE)の3つの要素を組み合わせたハイブリッド言語モデルである。52Bの...