Home
0h-n0 TechBLog
キャンセル

✍️ Google Research公式ブログ解説: Towards a Science of Scaling Agent Systems

本記事は Google Research Blog: Towards a Science of Scaling Agent Systems: When and Why Agent Systems Work(2026年1月28日公開)の解説記事です。 ブログ概要(Summary) Google ResearchのKim & Liu(2026)は、「エージェントを増やせば性能が上がる...

✍️ Google DeepMind公式解説: Gemini 3.1 Pro — 3段階推論と16ベンチマーク分析

ブログ概要 本記事は Google DeepMind公式: Gemini 3.1 Pro の解説記事である。Google DeepMindは2026年2月19日にGemini 3.1 Proを公開した。Gemini 3.1 Proは、Transformer系Mixture-of-Experts(MoE)アーキテクチャに基づく推論特化型モデルであり、従来の2段階(low/high)に加えて中...

✍️ Anthropic Research解説: 推論モデルのChain-of-Thoughtは思考過程を忠実に反映していない

ブログ概要 本記事は、Anthropic Alignment Scienceチームが2025年4月3日に公開した研究ブログ記事 Reasoning models don’t always say what they think の解説記事である。この研究では、推論モデル(Claude 3.7 SonnetおよびDeepSeek R1)のChain-of-Thought(CoT)が、モデルの...

📄 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価

本記事は arXiv:2503.06806 の解説記事です。 論文概要(Abstract) RouterBenchは、LLMルーティング戦略を公平に比較評価するためのベンチマークフレームワークである。LLMルーティングとは、入力クエリに応じて複数の候補モデル(高性能・高コストの大型モデルと低コストの小型モデル)から最適なモデルを選択するタスクを指す。著者らは、ルールベース・学習ベース分類...

✍️ OpenAI解説: Harness Engineering — Codexエージェントでの100万行コード生成の実践

ブログ概要 OpenAIエンジニアリングチームが、Codexエージェントを活用した5ヶ月間の実験で約100万行のコードを生成し、手動コーディングと比較して約1/10の時間で完了したと報告している。この実験を通じて得られた知見の中核がHarness Engineering(ハーネスエンジニアリング)という概念である。Agent = Model + Harnessというフレームワークに基づき、...

✍️ Anthropic公式ブログ解説: How we built our multi-agent research system

本記事は Anthropic Engineering Blog: How we built our multi-agent research system(2025年6月13日公開)の解説記事です。 ブログ概要(Summary) Anthropicは2025年6月、自社のマルチエージェントリサーチプラットフォームの設計・実装・運用について詳細なエンジニアリングブログを公開した。このシステ...

📄 ACL 2025論文解説: HalluLens — LLMハルシネーション評価の統一ベンチマーク

論文概要 本記事は arXiv:2504.17550 HalluLens の解説記事です。 HalluLensは、LLMのハルシネーションを体系的に評価するための統一ベンチマークである。著者らは、ハルシネーションを外的ハルシネーション(Extrinsic Hallucination)と内的ハルシネーション(Intrinsic Hallucination)に分類する明確な分類体系を提案し、...