Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する

本記事は Gated Delta Networks: Improving Mamba2 with Delta Rule (arXiv:2412.06464) の解説記事です。 論文概要(Abstract) Gated DeltaNetは、State Space Model(SSM)であるMamba2のゲーティング機構とDelta Rule(差分更新則)を組み合わせた線形注意アーキテクチャ...

📄 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装

本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。 論文概要(Abstract) DeepSeek-V2は、236Bの総パラメータ数に対し21Bのみを活性化する効率的なMoE型言語モデルである。著者らは2つの主要な技術革新を提案している。第一にMu...

📄 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化

本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)のサービングにおいて、高スループットを達成するには多数のリクエストを同時にバッチ処理する必要がある。しかし...

📄 論文解説: DINOv2 — ラベルなし自己教師あり学習で汎用視覚特徴量を獲得する大規模フレームワーク

本記事は DINOv2: Learning Robust Visual Features without Supervision(Oquab et al., 2023)の解説記事です。 論文概要(Abstract) DINOv2は、Meta AIが2023年に発表した自己教師あり学習フレームワークであり、ラベルなしで汎用的な視覚特徴量を獲得することを目指している。著者らは、既存の自己教師...

📄 論文解説: Orca — Iteration-Level Schedulingによる生成モデルサービングの革新

論文概要(Abstract) Orcaは、Transformer系生成モデルの推論サービングにおいてIteration-Level Scheduling(反復レベルスケジューリング)を導入したシステムである。従来のRequest-Level Scheduling(リクエストレベルスケジューリング)では、バッチ内の全リクエストが生成を完了するまで新たなリクエストを受け付けられなかった。Orc...

📄 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク

本記事は arXiv:2412.05579 “Agents Are Not Enough”(2024年12月)の解説記事です。 論文概要(Abstract) 著者らは、単一のLLMエージェントアーキテクチャには記憶・推論・実行の分離不全という根本的な限界があることを指摘し、複数の専門エージェントが役割分担と相互批評を通じて協調するSociety of Agents(SoA)フレームワーク...

📄 ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク

本記事は A Unified Approach to Routing and Cascading for LLMs(Dekoninck, Baader, Vechev, ICLR 2025)の解説記事です。 論文概要(Abstract) LLMのモデル選択戦略には、クエリに基づいて1つのモデルを選択する「ルーティング」と、小さいモデルから順に試行して満足な回答が得られるまで大きなモデルに...