Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Qwen3 Technical Report — 4段階学習パイプラインとMoEアーキテクチャの全体像

論文概要(Abstract) Qwen3はAlibaba Group Qwenチームが開発した最新世代の大規模言語モデルファミリーである。Dense(0.6B〜32B)とMoE(30B-A3B、235B-A22B)の包括的なモデルスイートを提供し、Thinking Mode(拡張推論)とNon-Thinking Mode(高速応答)を単一モデル内に統合した点が最大の特徴。約36兆トークンの...

📄 論文解説: Transformers are SSMs — Mamba-2とStructured State Space Dualityの理論

論文概要(Abstract) Tri DaoとAlbert Guによる本論文は、状態空間モデル(SSM)とAttentionが半可分行列(Semiseparable Matrix)を介して数学的に等価であることを示すStructured State Space Duality(SSD)フレームワークを提案する。このフレームワークに基づき設計されたMamba-2は、状態遷移行列をスカラーに制...

✍️ NeurIPS 2025 Best Paper解説: Gated Attention — Sigmoidゲートが実現する非線形・スパース・Attention-Sink-Freeなアテンション

論文概要(Abstract) 本論文は、Scaled Dot-Product Attention(SDPA)の出力にsigmoidゲートを要素積で適用する「Gated Attention」を提案する。このシンプルな修正が3つの理論的・実験的利点をもたらすことを示した:(1) sigmoidゲートがデータ依存であるため、非線形アテンションと等価になる、(2) トークン次元でスパースな出力を生...

📄 論文解説: Gated Delta Networks — Mamba2にデルタルールを統合した線形アテンションの革新

論文概要(Abstract) Gated Delta Networks(GDN)は、Mamba2のスカラーゲート(状態減衰制御)とDeltaNetのランク1デルタルール(選択的状態書き込み)を統合した新しいシーケンスモデルである。各ヘッドがステップごとにデータ依存の低ランク状態更新を行える点が最大の特徴で、Mamba2のチャンクワイズ並列アルゴリズムと同様のハードウェア効率で動作するCUD...

✍️ LangChain公式ブログ解説: エージェントのためのContext Engineering — Write/Select/Compress/Isolate実装ガイド

ブログ概要(Summary) LangChain公式ブログの「Context Engineering for Agents」は、エージェントのコンテキスト管理をWrite / Select / Compress / Isolateの4戦略に体系化し、各戦略のLangGraph実装コンポーネントとの対応を詳細に解説したガイドである。Drew Breunigのコンテキスト失敗モード(Poiso...

📄 論文解説: Progressive Rollout Strategies for LLM Updates — カナリア・ブルーグリーン・シャドウの段階的ロールアウト戦略

論文概要(Abstract) 本論文は、LLM更新時のデプロイ戦略としてカナリア・ブルーグリーン・シャドウモードの3パターンを体系的に分類・比較する。各戦略の適用条件(リスク許容度・トラフィック量・評価レイテンシ)を整理し、カナリアデプロイにおいて品質メトリクスに基づくベイズ的自動昇格アルゴリズムを提案する。シミュレーション実験により、従来の固定スケジュール昇格と比較して「品質劣化ユーザー...

📄 論文解説: Lost in the Middle — LLMが長文コンテキストの中間を無視するU字型性能曲線の発見

論文概要(Abstract) 「Lost in the Middle」は、LLMが長いコンテキスト内の情報を均等に利用していないことを体系的に実証した基礎研究である。関連情報がコンテキストの先頭または末尾にある場合は高い性能を示すが、中間に位置する場合は20〜30ポイント性能が低下するU字型性能曲線を発見した。この現象はGPT-3.5-Turbo、Claude 1.3を含む複数のモデルで一...

✍️ Microsoft Research解説: LLMLinguaシリーズ — プロンプト圧縮技術の進化と20倍圧縮の実現

ブログ概要(Summary) Microsoft Researchが開発したLLMLinguaシリーズは、LLMへの入力プロンプトを圧縮し、推論コスト削減とレイテンシ短縮を実現するプロジェクトである。初代LLMLingua(EMNLP 2023)はパープレキシティベースの粗粒度→細粒度圧縮で最大20倍の圧縮を達成。LongLLMLingua(ACL 2024)は長文コンテキスト特化の拡張で...

✍️ Microsoft Research解説: How to Evaluate LLMs — 本番LLM評価のための完全メトリクスフレームワーク

ブログ概要(Summary) Microsoft Researchの「How to Evaluate LLMs: A Complete Metric Framework」は、Azure AI Foundryでの大規模LLM運用経験から導き出された包括的な評価メトリクスフレームワークを体系化した記事である。評価軸をGPU利用率・Responsible AI・パフォーマンス・ユーティリティの4...

📄 論文解説: ACON — 自然言語ガイドライン最適化による長期LLMエージェントのコンテキスト圧縮

論文概要(Abstract) LLMエージェントが動的な環境でタスクを解決する際、ツール呼び出しの繰り返しによりコンテキスト長が膨張する。ACON(Agent Context Optimization)は、自然言語空間での圧縮ガイドライン最適化というユニークなアプローチで、環境観測(observation)とインタラクション履歴(history)の両方を圧縮するフレームワークである。「圧縮...