本記事は SSD Offloading for LLM Mixture-of-Experts Weights Considered Harmful in Energy Efficiency(Kyung, Yun, Ahn, 2025)の解説記事です。 論文概要 Mixture-of-Experts(MoE)モデルは、パラメータ数に対して推論時に活性化されるエキスパートの割合が低いため、S...
本記事は DeepSeekMoE: Towards Ultimate Expert Specialization in Mixture-of-Experts Language Models (arXiv:2401.04088) の解説記事です。 論文概要(Abstract) DeepSeekMoEは、従来のMoE(Mixture of Experts)アーキテクチャにおけるエキスパートの...
本記事は Adaptive Memory Admission Control for LLM Agents(Zhang, Jiang et al., 2026)の解説記事です。 論文概要 本論文は、LLMエージェントの長期記憶においてどの情報をメモリに保存すべきかを判断する「メモリ入力制御(Memory Admission Control)」問題に対し、5つの解釈可能な因子による適応的ス...
本記事は VITA-1.5: Towards GPT-4o Level Real-time Vision and Speech Interaction (arXiv:2501.12186) の解説記事です。 論文概要(Abstract) VITA-1.5は、映像・画像・音声・テキストの4つのモダリティをリアルタイムで統合処理するオープンソースのマルチモーダルLLMである。著者らは、前身の...
本記事は Gated Delta Networks: Improving Mamba2 with Delta Rule (arXiv:2412.06464) の解説記事です。 論文概要(Abstract) Gated DeltaNet(GDN)は、Mamba2の構造化状態空間モデル(SSM)にDelta学習則を組み込んだ線形注意機構である。従来の線形注意が「既存のメモリを消去できない」と...
本記事は Fast Inference of Mixture-of-Experts Language Models with Offloading (arXiv:2312.17238) の解説記事です。 論文概要(Abstract) Eliseev & Mazurは、Mixture-of-Experts(MoE)言語モデルをコンシューマ向けGPU(RTX 3060/3080/T4...
本記事は FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices (arXiv:2601.17063) の解説記事です。 論文概要(Abstract) FlashMoEは、Mixture-of-Experts...
本記事は Qwen3 Technical Report (arXiv:2505.09388) の解説記事です。 論文概要(Abstract) Qwen3はAlibaba Qwenチームが開発した大規模言語モデルシリーズの最新世代である。Denseモデル(0.6B〜32Bパラメータ)とMoE(Mixture of Experts)モデル(30B-A3B、235B-A22B)の両方を含み、単...
論文概要 本記事は https://arxiv.org/abs/2501.00663 の解説記事です。 Ali Behrouz, Peilin Zhong, Vahab Mirrokni(Google Research)による本論文は、推論時(テスト時)にMLPの重みを勾配ベースで更新することで長期記憶を実現するTitansアーキテクチャを提案する。中核となるのはsurprise機構で、...
本記事は Moshi: a speech-text foundation model for real-time dialogue (arXiv:2410.00907) の解説記事です。 論文概要(Abstract) Moshiは、Kyutai Labsが提案する全二重(full-duplex)リアルタイム音声対話のための基盤モデルである。従来のカスケード型パイプライン(ASR→LLM→...