📄 論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点

本記事は arXiv:1404.7530（NeurIPS 2014採択）の解説記事です。論文概要（Abstract） Neu & Valko（2014）は、行動集合が確率的に変動し損失が敵対的に決まるオンライン組合せ最適化を初めて体系的に研究した。著者らはFollow-the-Perturbed-Leader（FPL）ベースのアルゴリズムを提案し、importance-weig...

30/04/2026 blog paper

sleeping-bandit online-learning combinatorial-optimization +2

📄 論文解説: Follow-the-Perturbed-LeaderによるBest-of-Both-Worlds保証 — Tsallis摂動の理論と組合せバンディットへの応用

本記事は arXiv:2504.07307 の解説記事です。論文概要（Abstract） Tsuchiya & Ito（2025）は、Follow-the-Perturbed-Leader（FPL）アルゴリズムにTsallis型摂動分布を導入することで、オンライン組合せ最適化においてBest-of-Both-Worlds（BoBW）保証を達成した。FPLは組合せ構造に対して計算...

30/04/2026 blog paper

bandit online-learning FPL +2

✍️ NVIDIA公式技術ブログ解説: Nemotron 3 Nano Omniのマルチモーダルエージェント推論アーキテクチャ

本記事は NVIDIA Nemotron 3 Nano Omni Powers Multimodal Agent Reasoning in a Single Efficient Open Model の解説記事です。ブログ概要（Summary） NVIDIAが2026年4月28日に公開したこの技術ブログでは、Nemotron 3 Nano Omniの設計思想、訓練パイプライン、ベンチマ...

30/04/2026 blog tech_blog

nvidia nemotron multimodal +4

✍️ Anthropic Engineering解説: マルチエージェント研究システムの構築

Anthropic Engineering解説: マルチエージェント研究システムの構築ブログ概要本記事は Anthropic Engineering Blog: How we built our multi-agent research system の解説記事です。 Anthropicのエンジニアリングチームは、Claude.aiに搭載されるリサーチ機能の中核としてOrchest...

30/04/2026 blog tech_blog

multi-agent Claude RAG +2

📄 論文解説: AI手法 vs 分子動力学シミュレーション — cryptic pocket検出の定性・定量比較

論文概要（Abstract）本論文は、タンパク質に存在するcryptic pocket（隠れたポケット）の検出において、AI手法（AlphaFlow、BioEmu、PocketMiner、CryptoBank）と物理ベースの分子動力学（MD）シミュレーション（FAST、FAST+seeding）の予測能力を体系的に比較した研究である。エボラウイルスVP35のインターフェロン阻害ドメインお...

30/04/2026 blog paper

cryptic-pocket molecular-dynamics AlphaFold +3

📄 論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善

本記事は arXiv:2604.25269 の解説記事です。論文概要（Abstract） Tsuchiya, Ito, Honda（2026）は、行動の利用可能性が確率的に変動するオンライン組合せ最適化（sleeping設定）においてCAT（Combine-and-Transform）アルゴリズムを提案した。CATは利用可能性で重み付けした損失変換を核とし、full-informati...

30/04/2026 blog paper

sleeping-bandit online-learning combinatorial-optimization +2

📄 論文解説: Octo ─ オープンソース汎用ロボットポリシーの設計と実践

論文概要（Abstract）本記事は arXiv:2405.12213 Octo: An Open-Source Generalist Robot Policy の解説記事です。 OctoはUC Berkeley、Stanford、CMU等の共同研究により2024年5月に発表された、約93Mパラメータのオープンソース汎用ロボットポリシーである。Open X-Embodimentデータセ...

30/04/2026 blog paper

robotics generalist-policy open-source +3

📄 論文解説: Scaling LLM Test-Time Compute Optimally

論文概要（Abstract）本記事は Scaling LLM Test-Time Compute論文 (arXiv:2408.03314) の解説記事です。著者らは、LLMの推論時（test-time）に追加のコンピュートを投入する際、その配分方法を最適化すれば、事前学習時にモデルパラメータをスケールするよりも効率的に性能を向上できることを示している。具体的には、MATHベンチマーク...

30/04/2026 blog paper

test-time-compute LLM scaling-laws +2

📄 論文解説: Jamba — Transformer-Mamba-MoEハイブリッド言語モデルの設計原理

本記事は Jamba: A Hybrid Transformer-Mamba Language Model の解説記事です。論文概要（Abstract） Jambaは、AI21 Labsが2024年3月に発表した、Transformer Attention、Mamba SSM、Mixture of Experts（MoE）の3つの要素を組み合わせたハイブリッド言語モデルである。52Bの...

30/04/2026 blog paper

jamba mamba transformer +4

📄 論文解説: Diffusion Policy ─ 拡散過程によるロボット行動生成の基盤技術

論文概要（Abstract）本記事は arXiv:2303.04137 Diffusion Policy: Visuomotor Policy Learning via Action Diffusion の解説記事です。 Diffusion Policyは、Columbia大学とMIT CSAILの研究者が2023年3月に発表した、条件付きデノイジング拡散過程をロボットの行動生成に適用...

30/04/2026 blog paper

diffusion-model robotics imitation-learning +3

1
...
49
50
51
...
154
50 / 154