Home
0h-n0 TechBLog
キャンセル

✍️ Google DeepMind公式解説: Gemini 3.1 Pro — 3段階推論と16ベンチマーク分析

ブログ概要 本記事は Google DeepMind公式: Gemini 3.1 Pro の解説記事である。Google DeepMindは2026年2月19日にGemini 3.1 Proを公開した。Gemini 3.1 Proは、Transformer系Mixture-of-Experts(MoE)アーキテクチャに基づく推論特化型モデルであり、従来の2段階(low/high)に加えて中...

✍️ Anthropic Research解説: 推論モデルのChain-of-Thoughtは思考過程を忠実に反映していない

ブログ概要 本記事は、Anthropic Alignment Scienceチームが2025年4月3日に公開した研究ブログ記事 Reasoning models don’t always say what they think の解説記事である。この研究では、推論モデル(Claude 3.7 SonnetおよびDeepSeek R1)のChain-of-Thought(CoT)が、モデルの...

📄 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価

本記事は arXiv:2503.06806 の解説記事です。 論文概要(Abstract) RouterBenchは、LLMルーティング戦略を公平に比較評価するためのベンチマークフレームワークである。LLMルーティングとは、入力クエリに応じて複数の候補モデル(高性能・高コストの大型モデルと低コストの小型モデル)から最適なモデルを選択するタスクを指す。著者らは、ルールベース・学習ベース分類...

📄 ACL 2025論文解説: HalluLens — LLMハルシネーション評価の統一ベンチマーク

論文概要 本記事は arXiv:2504.17550 HalluLens の解説記事です。 HalluLensは、LLMのハルシネーションを体系的に評価するための統一ベンチマークである。著者らは、ハルシネーションを外的ハルシネーション(Extrinsic Hallucination)と内的ハルシネーション(Intrinsic Hallucination)に分類する明確な分類体系を提案し、...

✍️ Anthropic公式ブログ解説: Claude Opus 4.7 — 高解像度ビジョンとアダプティブ推論の技術詳細

Anthropic公式ブログ解説: Claude Opus 4.7 — 高解像度ビジョンとアダプティブ推論の技術詳細 ブログ概要 本記事は Anthropic公式ブログ: Introducing Claude Opus 4.7 の解説記事です。 Claude Opus 4.7は2026年4月16日にリリースされたAnthropicの最新フラッグシップモデルであり、前世代のOpus 4....

📄 論文解説: Safety Tax — 安全性アラインメントが大規模推論モデルの推論能力を低下させるトレードオフ

論文概要(Abstract) 本記事は arXiv:2503.00555 の解説記事です。Large Reasoning Model(LRM)に安全性アラインメントを適用すると、安全性は回復できるものの推論能力が劣化するというSafety Tax現象を体系的に検証した研究について解説します。著者らはこのトレードオフを定量的に明らかにし、副産物としてDirectRefusalデータセットを公...