論文概要(Abstract) 本論文は、従来のRAG(Retrieval-Augmented Generation)パイプラインにLLMエージェントの自律的推論能力を統合した「Agentic RAG」を体系的にサーベイした包括的論文である。Single-Agent、Multi-Agent、Hierarchical Agentの3つのアーキテクチャパターンを分類し、ReAct・CRAG・Se...
論文概要(Abstract) 本論文は、Muonオプティマイザの理論的基盤とMulti-Latent Attention(MLA)およびMixture-of-Experts(MoE)との統合効果を包括的に分析する。30M〜200Mパラメータ規模のTransformerモデルで実験し、MuonがAdamW対比で48-52%の計算量で目標損失に到達することを確認した。さらに、MLA+MoEとの...
論文概要(Abstract) MegaScale-MoEは、大規模Mixture-of-Experts(MoE)モデルの学習において通信効率を最適化するプロダクションシステムである。352Bパラメータの MoEモデルを1,440台のNVIDIA Hopper GPUで学習し、Megatron-LM比1.88倍のModel FLOPs Utilization(MFU)を達成した。Attent...
論文概要(Abstract) DeepSeekMathは、数学推論に特化した7Bパラメータの言語モデルである。Common Crawlから抽出した120Bトークンの数学関連データで継続事前学習し、さらにGRPO(Group Relative Policy Optimization)という新しい強化学習手法でPost-trainingを実施した。GRPOはPPOから価値関数(Critic)モ...
論文概要(Abstract) Kimi K2は、Moonshot AIが開発した1兆パラメータ(活性32B)のMixture-of-Experts(MoE)大規模言語モデルである。384個の専門家を持ち、Top-8ルーティングで32Bパラメータのみを活性化する。事前学習は15.5兆トークンで実施され、MuonClipオプティマイザにより損失スパイクなしで完走した。Post-training...
論文概要(Abstract) Muonオプティマイザは行列直交化に基づく新世代の最適化手法であり、小規模モデルでは優れた性能を示していたが、大規模LLM学習へのスケーラビリティは未検証だった。本論文は、重み減衰(weight decay)の追加とパラメータ別更新スケーリング(per-parameter update scaling)という2つの修正により、Muonをハイパーパラメータチュー...
論文概要(Abstract) JOrthoBenchは、日本語の表記ゆれ(漢字・ひらがな・カタカナ・旧字体・歴史的仮名遣い)がLLMの言語処理能力に与える影響を体系的に評価するベンチマークである。3ドメイン(語彙・読解・推論)×8タスク、約2,400件のデータで、GPT-4o・Claude 3.5 Sonnet・Gemini 1.5 Pro・Swallow等8モデルを評価。全モデルが非標準...
論文概要(Abstract) MetaLLMは、複数のLLMの中からクエリごとに最適なモデルを動的に選択するルーティングフレームワークである。LLMルーティング問題をマルコフ決定過程(MDP)として定式化し、Multi-Armed Bandit(MAB)アルゴリズムを意思決定エンジンとして活用する。クエリの埋め込みベクトルを状態、LLM選択をアクション、正解率/コスト比を報酬として設計し、...
論文概要(Abstract) DeepSeek-V3は671Bパラメータ(トークンあたり37Bアクティブ)のMixture-of-Experts(MoE)言語モデルである。Multi-head Latent Attention(MLA)とDeepSeekMoEアーキテクチャを採用し、補助損失フリーの負荷分散戦略とマルチトークン予測(MTP)訓練目標を導入した。14.8兆トークンで事前学習後...
論文概要(Abstract) AutoMixは、小型LLM(sLLM)の自己検証(Self-Verification)と部分観測マルコフ決定過程(POMDP)を組み合わせたカスケードルーティングフレームワークです。RouteLLMやHybrid LLMとは異なり、追加の分類器やルーターモデルを訓練する必要がなく、sLLM自身が自分の応答品質を評価し、品質が不十分な場合のみ大型LLM(lLL...