📄 論文解説: DAPO - 大規模GRPO学習の4つの失敗パターンとその解決策

本記事は DAPO: An Open-Source LLM Reinforcement Learning System at Scale の解説記事です。論文概要（Abstract） DAPOは、GRPOベースの大規模LLM強化学習における4つの実践的欠陥を特定し、それぞれに対する修正手法を提案した研究である。著者ら（ByteDance Seed）は、Clip-Higher（非対称クリ...

10/03/2026 blog paper

GRPO reinforcement-learning LLM +3

📄 NeurIPS 2025論文解説: FramePack - 定長コンテキスト圧縮による実用的動画拡散モデル

本記事は arXiv:2504.12626 “Frame Context Packing and Drift Prevention in Next-Frame-Prediction Video Diffusion Models” の解説記事です。この論文はNeurIPS 2025に採択されています。論文概要（Abstract） FramePackは、Lvmin Zhang（Contro...

10/03/2026 blog paper

video-generation diffusion-model context-compression +5

📄 論文解説: DeepSeek-R1 - 強化学習によるLLM推論能力の段階的獲得パイプライン

本記事は DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning の解説記事です。論文概要（Abstract） DeepSeek-R1は、強化学習（RL）のみでLLMの推論能力を獲得させることに成功した研究である。著者らはまずDeepSeek-R1-Zeroとして、SFTを一切...

10/03/2026 blog paper

GRPO reinforcement-learning LLM +4

📄 論文解説: Wan - オープンな大規模動画生成モデル群

本記事は arXiv:2503.03049 “Wan: Open and Advanced Large-Scale Video Generative Models” の解説記事です。論文概要（Abstract） Wanは、Alibaba（Wan-Video）が開発したオープンソースの大規模動画生成モデル群である。テキストから動画（T2V）および画像から動画（I2V）の両方をサポートし、...

10/03/2026 blog paper

video-generation diffusion-transformer MoE +7

📄 論文解説: DeepSeekMath - Group Relative Policy Optimization(GRPO)による数学推論の限界突破

本記事は DeepSeekMath: Pushing the Limits of Mathematical Reasoning in Open Language Models の解説記事です。論文概要（Abstract） DeepSeekMathは、7Bパラメータのオープン言語モデルで数学推論の限界を押し広げた研究である。著者らはCommon Crawlから120Bトークンの数学関連デ...

10/03/2026 blog paper

GRPO reinforcement-learning LLM +3

✍️ テックブログ解説: Sufficient Context — RAGにおけるコンテキスト十分性の新しいレンズ（Google Research / ICLR 2025）

本記事は Google Research Blog “Deeper insights into retrieval augmented generation: The role of sufficient context” の解説記事です。関連論文は arXiv:2411.06037 “Sufficient Context: A New Lens on Retrieval Augmented...

09/03/2026 blog tech_blog

RAG context-sufficiency hallucination +2

✍️ OpenAI Cookbook解説: Self-Evolving Agents — 自律的プロンプト最適化による自己進化エージェント

本記事は OpenAI Cookbook: Self-Evolving Agents の解説記事です。ブログ概要（Summary） OpenAI公式Cookbookの「Self-Evolving Agents」は、LLMエージェントが自身のプロンプトを自律的に改善し続けるフレームワークを提示しています。モデルの再学習（ファインチューニング）ではなく、プロンプトの反復的最適化によって自己...

09/03/2026 blog tech_blog

self-evolving agent prompt-optimization +2

✍️ AWS解説: Amazon Bedrock Intelligent Prompt Routing - マネージドLLMルーティングの実装と設計

本記事は Amazon Bedrock Intelligent Prompt Routing および公式ドキュメントの解説記事です。ブログ概要（Summary） Amazon Bedrock Intelligent Prompt Routingは、2025年4月にGA（一般提供）となったマネージドLLMルーティングサービスである。単一のサーバーレスエンドポイントから、同一モデルファ...

09/03/2026 blog tech_blog

LLM routing AWS +4

📄 論文解説: AutoMix - 追加学習不要の自己検証型LLMカスケードルーティング

本記事は AutoMix: Automatically Mixing Language Models (arXiv:2402.14099) の解説記事です。論文概要（Abstract） AutoMixは、異なるサイズ・価格のLLMを自動的に組み合わせるカスケードルーティング手法である。小さなLLMが応答を生成した後、自身でその応答の品質を検証（self-verification）し、品...

09/03/2026 blog paper

LLM routing cost-optimization +3

📄 論文解説: AI駆動の自己修復ネットワーク制御プレーン — DRL+LLMハイブリッドアーキテクチャ

本記事は arXiv:2504.01848 の解説記事です。論文概要（Abstract）本論文は、深層強化学習（DRL）と大規模言語モデル（LLM）を組み合わせた自己修復ネットワーク制御プレーンを提案しています。著者ら（Guangjin Pan et al., Huawei Technologies / Tsinghua University / Southeast Universi...

09/03/2026 blog paper

self-healing DRL LLM +2

1
...
100
101
102
...
154
101 / 154