✍️ Google DeepMind公式解説: Gemini 3.1 Pro — 3段階推論と16ベンチマーク分析

ブログ概要本記事は Google DeepMind公式: Gemini 3.1 Pro の解説記事である。Google DeepMindは2026年2月19日にGemini 3.1 Proを公開した。Gemini 3.1 Proは、Transformer系Mixture-of-Experts（MoE）アーキテクチャに基づく推論特化型モデルであり、従来の2段階（low/high）に加えて中...

26/04/2026 blog tech_blog

Gemini Google DeepMind +9

✍️ Anthropic Research解説: 推論モデルのChain-of-Thoughtは思考過程を忠実に反映していない

ブログ概要本記事は、Anthropic Alignment Scienceチームが2025年4月3日に公開した研究ブログ記事 Reasoning models don’t always say what they think の解説記事である。この研究では、推論モデル（Claude 3.7 SonnetおよびDeepSeek R1）のChain-of-Thought（CoT）が、モデルの...

26/04/2026 blog tech_blog

CoT-faithfulness reasoning-model safety-monitoring +5

📄 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価

本記事は arXiv:2503.06806 の解説記事です。論文概要（Abstract） RouterBenchは、LLMルーティング戦略を公平に比較評価するためのベンチマークフレームワークである。LLMルーティングとは、入力クエリに応じて複数の候補モデル（高性能・高コストの大型モデルと低コストの小型モデル）から最適なモデルを選択するタスクを指す。著者らは、ルールベース・学習ベース分類...

26/04/2026 blog paper

LLM routing benchmark +4

📄 ICLR 2024論文解説: Ring Attention — 複数GPU間でのブロックワイズ分散アテンションによる超長コンテキスト処理

本記事は Ring Attention with Blockwise Transformers for Near-Infinite Context (arXiv:2310.01889) の解説記事です。ICLR 2024 採択論文。論文概要（Abstract） Ring Attentionは、UC Berkeleyの研究グループ（Hao Liu, Matei Zaharia, ...

26/04/2026 blog paper

RingAttention distributed attention +3

✍️ OpenAI解説: Harness Engineering — Codexエージェントでの100万行コード生成の実践

ブログ概要 OpenAIエンジニアリングチームが、Codexエージェントを活用した5ヶ月間の実験で約100万行のコードを生成し、手動コーディングと比較して約1/10の時間で完了したと報告している。この実験を通じて得られた知見の中核がHarness Engineering（ハーネスエンジニアリング）という概念である。Agent = Model + Harnessというフレームワークに基づき、...

26/04/2026 blog tech_blog

OpenAI Codex harness-engineering +3

✍️ AWS公式ブログ解説: Evaluating AI Agents — Amazonにおけるエージェント評価の実践知見

本記事は AWS Machine Learning Blog: Evaluating AI agents: Real-world lessons from building agentic systems at Amazon の解説記事です。ブログ概要（Summary） Amazonは2025年以降、社内で数千のAIエージェントを構築した経験から、エージェント評価の包括的なフレームワー...

26/04/2026 blog tech_blog

AWS agent evaluation +5

✍️ Anthropic公式ブログ解説: How we built our multi-agent research system

本記事は Anthropic Engineering Blog: How we built our multi-agent research system（2025年6月13日公開）の解説記事です。ブログ概要（Summary） Anthropicは2025年6月、自社のマルチエージェントリサーチプラットフォームの設計・実装・運用について詳細なエンジニアリングブログを公開した。このシステ...

26/04/2026 blog tech_blog

multi-agent-systems Anthropic Claude +4

📄 ACL 2025論文解説: HalluLens — LLMハルシネーション評価の統一ベンチマーク

論文概要本記事は arXiv:2504.17550 HalluLens の解説記事です。 HalluLensは、LLMのハルシネーションを体系的に評価するための統一ベンチマークである。著者らは、ハルシネーションを外的ハルシネーション（Extrinsic Hallucination）と内的ハルシネーション（Intrinsic Hallucination）に分類する明確な分類体系を提案し、...

26/04/2026 blog paper

hallucination LLM-evaluation benchmark +7

📄 論文解説: SafeChain — 長Chain-of-Thought推論の安全性分析と安全性訓練データセット

論文概要（Abstract）本記事は SafeChain: Safety of Language Models with Long Chain-of-Thought Reasoning Capabilities (arXiv:2502.12025) の解説記事です。この論文は、DeepSeek-R1シリーズやGemini-Thinking等の大規模推論モデル（LRM）12種を対象に、...

26/04/2026 blog paper

SafeChain chain-of-thought LRM-safety +5

📄 ICLR 2025論文解説: Jamba — Transformer-Mambaハイブリッドアーキテクチャの設計と実装

本記事は Jamba: A Hybrid Transformer-Mamba Language Model (arXiv:2403.19887) の解説記事です。ICLR 2025 採択論文。論文概要（Abstract） Jambaは、AI21 Labsが提案したTransformerとMamba（State Space Model, SSM）のハイブリッド言語モデルである。A...

26/04/2026 blog paper

Jamba Mamba SSM +4

1
...
54
55
56
...
154
55 / 154