📄 論文解説: MoEオフロードによる大規模スパースモデルの高速推論

本記事は Fast Inference of Mixture-of-Experts Language Models with Offloading (arXiv:2312.17238) の解説記事です。論文概要（Abstract） Eliseev & Mazurは、Mixture-of-Experts（MoE）言語モデルをコンシューマ向けGPU（RTX 3060/3080/T4...

25/03/2026 blog paper

MoE offloading speculative-loading +7

📄 論文解説: FlashMoE - SSD I/Oボトルネックを解消するML基盤キャッシュ置換によるMoEエッジ推論

本記事は FlashMoE: Reducing SSD I/O Bottlenecks via ML-Based Cache Replacement for Mixture-of-Experts Inference on Edge Devices (arXiv:2601.17063) の解説記事です。論文概要（Abstract） FlashMoEは、Mixture-of-Experts...

25/03/2026 blog paper

MoE SSD-offloading cache-replacement +6

📄 論文解説: Qwen3 Technical Report — MoEアーキテクチャとHybrid Thinkingの全容

本記事は Qwen3 Technical Report (arXiv:2505.09388) の解説記事です。論文概要（Abstract） Qwen3はAlibaba Qwenチームが開発した大規模言語モデルシリーズの最新世代である。Denseモデル（0.6B〜32Bパラメータ）とMoE（Mixture of Experts）モデル（30B-A3B、235B-A22B）の両方を含み、単...

25/03/2026 blog paper

llm qwen mixture-of-experts +2

📄 論文解説: Titans — 推論時ニューラルメモリ更新による200万トークン超の長期記憶

論文概要本記事は https://arxiv.org/abs/2501.00663 の解説記事です。 Ali Behrouz, Peilin Zhong, Vahab Mirrokni（Google Research）による本論文は、推論時（テスト時）にMLPの重みを勾配ベースで更新することで長期記憶を実現するTitansアーキテクチャを提案する。中核となるのはsurprise機構で、...

25/03/2026 blog paper

LLM memory transformer +2

📄 論文解説: Moshi — 160msレイテンシを実現する全二重リアルタイム音声対話基盤モデル

本記事は Moshi: a speech-text foundation model for real-time dialogue (arXiv:2410.00907) の解説記事です。論文概要（Abstract） Moshiは、Kyutai Labsが提案する全二重（full-duplex）リアルタイム音声対話のための基盤モデルである。従来のカスケード型パイプライン（ASR→LLM→...

25/03/2026 blog paper

real-time-dialogue speech-to-speech full-duplex +4

📄 論文解説: SelfCheckGPT — 外部知識不要のLLM幻覚検出手法

本記事は SelfCheckGPT: Zero-Resource Black-Box Hallucination Detection for Generative Large Language Models (arXiv:2303.08896) の解説記事です。論文概要（Abstract） SelfCheckGPTは、外部知識ベースを必要とせずにLLMの幻覚（hallucination...

24/03/2026 blog paper

LLM hallucination detection +5

📄 論文解説: MT-Bench — LLM-as-a-Judgeパラダイムの実証分析

本記事は Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena (arXiv:2306.05685) の解説記事です。論文概要（Abstract）本論文は、LLMを評価の判定器として使う「LLM-as-a-Judge」パラダイムの信頼性を体系的に検証した研究である。著者らは、多段階対話を評価するMT-Benchと、人間のペアワイ...

24/03/2026 blog paper

LLM evaluation LLM-as-a-Judge +4

📄 論文解説: RGB Benchmark — RAGに必要な4能力の体系的評価

本記事は Benchmarking Large Language Models in Retrieval-Augmented Generation (arXiv:2312.10997) の解説記事です。論文概要（Abstract） RGB（Retrieval-Augmented Generation Benchmark）は、RAGシステムに必要な4つの基本能力を体系的に評価するベンチマ...

24/03/2026 blog paper

RAG benchmark evaluation +4

📄 ACL 2024論文解説: RAGTruth — RAGシステムの幻覚検出コーパスと評価手法

本記事は RAGTruth: A Hallucination Corpus for Developing Trustworthy Retrieval-Augmented Language Models (ACL 2024) の解説記事です。論文概要（Abstract） RAGTruthは、RAG（Retrieval-Augmented Generation）システムが生成する幻覚（ha...

24/03/2026 blog paper

RAG hallucination evaluation +4

📄 論文解説: RAGAS — RAGパイプラインの自動評価フレームワーク

本記事は RAGAS: Automated Evaluation of Retrieval Augmented Generation (arXiv:2309.01431) の解説記事です。論文概要（Abstract） RAGASは、Retrieval-Augmented Generation（RAG）パイプラインを参照回答なし（reference-free）で自動評価するフレームワーク...

24/03/2026 blog paper

RAG evaluation LLM +4

1
...
60
61
62
...
133
61 / 133