- ✍️ Google Research公式ブログ解説: Towards a Science of Scaling Agent Systems
- ✍️ Google DeepMind公式解説: Gemini 3.1 Pro — 3段階推論と16ベンチマーク分析
- ✍️ Anthropic Research解説: 推論モデルのChain-of-Thoughtは思考過程を忠実に反映していない
- 📄 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価
- 📄 ICLR 2024論文解説: Ring Attention — 複数GPU間でのブロックワイズ分散アテンションによる超長コンテキスト処理
ブログ概要(Summary) Databricks Mosaic Researchは、20のLLMを対象にコンテキスト長2,000〜2,000,000トークンの範囲でRAG性能を系統的に評価した大規模ベンチマーク研究を発表した(arXiv: 2411.03538)。著者ら(Quinn Leng, Jacob Portes, Sam Havens, Matei Zaharia, Michae...