Anthropicブログ解説: Effective Harnesses for Long-Running Agents ブログ概要 本記事は Anthropic Engineering Blog: Effective harnesses for long-running agents の解説記事です。 Anthropicのエンジニアリングチームは、長時間動作するAIエージェントが大規模...
ブログ概要 本記事は Tuning Deep Agents to Work Well with Different Models(LangChain公式ブログ、2026年4月29日、Vivek Trivedy・Mason Daugherty著)の解説記事です。 LLMベースのエージェントフレームワークにおいて、モデルごとに異なるプロンプト戦略やツール構成が必要になる問題は広く認識されてい...
本記事は Run Highly Efficient Multimodal Agentic AI with NVIDIA Nemotron 3 Nano Omni Using vLLM の解説記事です。 ブログ概要(Summary) vLLMプロジェクトが2026年4月28日に公開したこの公式ブログでは、vLLM v0.20.0によるNemotron 3 Nano Omniの推論サーバー構...
論文概要(Abstract) BioEmuは、Microsoft Researchが開発した拡散ベースの生成モデルであり、タンパク質のアミノ酸配列のみを入力として、ボルツマン分布に従う平衡構造アンサンブルを高速に生成する。従来の分子動力学(MD)シミュレーションではスーパーコンピュータで数ヶ月を要する計算を、単一GPUで1時間あたり数千構造の生成へと加速した。AlphaFold2のEvof...
論文概要(Abstract) 本記事は Inference Scaling for Long-Context RAG論文 (arXiv:2410.04343) の解説記事です。 Retrieval-Augmented Generation(RAG)において、推論時のスケーリング戦略を体系的に分析した研究である。著者らは、取得するコンテキストの長さ(context length scali...
論文概要(Abstract) 本記事は arXiv:2307.15818 RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control の解説記事です。 RT-2はGoogle DeepMindが2023年7月に発表した、Vision-Language-Action(VLA)モデルの先駆的研究で...
本記事は arXiv:2603.19700 の解説記事です。 論文概要(Abstract) Saha & Shekhar(2026)は、competing bandits(dueling bandits)モデルをsleeping設定に拡張した「Sleeping Competing Bandits」を提案した。標準のcompeting banditsでは学習者がペアのアームを選択し...
本記事は arXiv:2403.01315 の解説記事です。 論文概要(Abstract) Pacchiano, Muthukumar, Bartlett(2024)は、sleeping bandit問題に新たなregret尺度「per-action regret」を導入した。従来のglobal regretが「常に利用可能な最適行動」との比較であるのに対し、per-action reg...
本記事は arXiv:1404.7530(NeurIPS 2014採択)の解説記事です。 論文概要(Abstract) Neu & Valko(2014)は、行動集合が確率的に変動し損失が敵対的に決まるオンライン組合せ最適化を初めて体系的に研究した。著者らはFollow-the-Perturbed-Leader(FPL)ベースのアルゴリズムを提案し、importance-weig...
本記事は arXiv:2504.07307 の解説記事です。 論文概要(Abstract) Tsuchiya & Ito(2025)は、Follow-the-Perturbed-Leader(FPL)アルゴリズムにTsallis型摂動分布を導入することで、オンライン組合せ最適化においてBest-of-Both-Worlds(BoBW)保証を達成した。FPLは組合せ構造に対して計算...