本記事は Gated Delta Networks: Improving Mamba2 with Delta Rule (arXiv:2412.06464) の解説記事です。 論文概要(Abstract) Gated DeltaNetは、State Space Model(SSM)であるMamba2のゲーティング機構とDelta Rule(差分更新則)を組み合わせた線形注意アーキテクチャ...
本記事は arXiv:2305.18290 “Direct Preference Optimization: Your Language Model is Secretly a Reward Model” の解説記事です。 論文概要(Abstract) 大規模言語モデルのアライメントにおいて、RLHF(Reinforcement Learning from Human Feedback)...
本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。 論文概要(Abstract) DeepSeek-V2は、236Bの総パラメータ数に対し21Bのみを活性化する効率的なMoE型言語モデルである。著者らは2つの主要な技術革新を提案している。第一にMu...
本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)のサービングにおいて、高スループットを達成するには多数のリクエストを同時にバッチ処理する必要がある。しかし...
本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。 論文概要(Abstract) Kwon et al. (UC Berkeley) は、LLMサービングにおけるKVキャッシュのメモリ断片化問題に取り組み、OSの仮...
本記事は DINOv2: Learning Robust Visual Features without Supervision(Oquab et al., 2023)の解説記事です。 論文概要(Abstract) DINOv2は、Meta AIが2023年に発表した自己教師あり学習フレームワークであり、ラベルなしで汎用的な視覚特徴量を獲得することを目指している。著者らは、既存の自己教師...
論文概要(Abstract) Orcaは、Transformer系生成モデルの推論サービングにおいてIteration-Level Scheduling(反復レベルスケジューリング)を導入したシステムである。従来のRequest-Level Scheduling(リクエストレベルスケジューリング)では、バッチ内の全リクエストが生成を完了するまで新たなリクエストを受け付けられなかった。Orc...
本記事は LLVM 20 Promotes SPIR-V to Official Backend(Khronos Group) および SPIR-V Target User Guide(LLVM 20.1.0公式ドキュメント) の解説記事です。 ブログ概要(Summary) 2025年1月28日、Khronos Groupは「LLVMの開発者がSPIR-VバックエンドをLLVM 20で実...
本記事は arXiv:2412.05579 “Agents Are Not Enough”(2024年12月)の解説記事です。 論文概要(Abstract) 著者らは、単一のLLMエージェントアーキテクチャには記憶・推論・実行の分離不全という根本的な限界があることを指摘し、複数の専門エージェントが役割分担と相互批評を通じて協調するSociety of Agents(SoA)フレームワーク...
本記事は A Unified Approach to Routing and Cascading for LLMs(Dekoninck, Baader, Vechev, ICLR 2025)の解説記事です。 論文概要(Abstract) LLMのモデル選択戦略には、クエリに基づいて1つのモデルを選択する「ルーティング」と、小さいモデルから順に試行して満足な回答が得られるまで大きなモデルに...