本記事は Fast Inference of Mixture-of-Experts Language Models with Offloading (arXiv:2312.17238) の解説記事です。 論文概要(Abstract) Eliseev & Mazurは、Mixture-of-Experts(MoE)言語モデルをコンシューマ向けGPU(RTX 3060/3080/T4...
本記事は FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices (arXiv:2601.17063) の解説記事です。 論文概要(Abstract) FlashMoEは、Mixture-of-Experts...
本記事は Qwen3 Technical Report (arXiv:2505.09388) の解説記事です。 論文概要(Abstract) Qwen3はAlibaba Qwenチームが開発した大規模言語モデルシリーズの最新世代である。Denseモデル(0.6B〜32Bパラメータ)とMoE(Mixture of Experts)モデル(30B-A3B、235B-A22B)の両方を含み、単...
論文概要 本記事は https://arxiv.org/abs/2501.00663 の解説記事です。 Ali Behrouz, Peilin Zhong, Vahab Mirrokni(Google Research)による本論文は、推論時(テスト時)にMLPの重みを勾配ベースで更新することで長期記憶を実現するTitansアーキテクチャを提案する。中核となるのはsurprise機構で、...
本記事は Moshi: a speech-text foundation model for real-time dialogue (arXiv:2410.00907) の解説記事です。 論文概要(Abstract) Moshiは、Kyutai Labsが提案する全二重(full-duplex)リアルタイム音声対話のための基盤モデルである。従来のカスケード型パイプライン(ASR→LLM→...
本記事は SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (arXiv:2303.08896) の解説記事です。 論文概要(Abstract) SelfCheckGPTは、外部知識ベースを必要とせずにLLMの幻覚(hallucination...
本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (arXiv:2306.05685) の解説記事です。 論文概要(Abstract) 本論文は、LLMを評価の判定器として使う「LLM-as-a-Judge」パラダイムの信頼性を体系的に検証した研究である。著者らは、多段階対話を評価するMT-Benchと、人間のペアワイ...
本記事は Benchmarking Large Language Models in Retrieval-Augmented Generation (arXiv:2312.10997) の解説記事です。 論文概要(Abstract) RGB(Retrieval-Augmented Generation Benchmark)は、RAGシステムに必要な4つの基本能力を体系的に評価するベンチマ...
本記事は RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models (ACL 2024) の解説記事です。 論文概要(Abstract) RAGTruthは、RAG(Retrieval-Augmented Generation)システムが生成する幻覚(ha...
本記事は RAGAS: Automated Evaluation of Retrieval Augmented Generation (arXiv:2309.01431) の解説記事です。 論文概要(Abstract) RAGASは、Retrieval-Augmented Generation(RAG)パイプラインを参照回答なし(reference-free)で自動評価するフレームワーク...