Home
0h-n0 TechBLog
キャンセル

📄 論文解説: DeepSeek-V3 — MLA+MoE+FP8混合精度で671Bモデルを低コスト学習する技術詳細

本記事は DeepSeek-V3 Technical Report (arXiv:2412.19437) の解説記事です。 論文概要(Abstract) DeepSeek-V3は671Bの総パラメータ数に対し37Bのみを活性化するMoE型言語モデルである。著者らは、DeepSeek-V2で提案されたMLAとDeepSeekMoEを継承しつつ、FP8混合精度学習、Multi-Token P...

📄 論文解説: Methods of Improving LLM Training Stability — QK-NormからRMSNormまでの学習安定化技法

本記事は Methods of improving LLM training stability (arXiv:2410.16682) の解説記事です。 論文概要(Abstract) 大規模言語モデルの学習において、ロスのスパイク(急増)や勾配の発散は深刻な問題である。本論文の著者らは、QK-Norm、RMSNorm、logit softcapping、embedding normali...

📄 論文解説: Self-RAG — 自己反省トークンによる適応的検索拡張生成

本記事は arXiv:2310.11511 “Self-RAG: Learning to Retrieve, Generate, and Critique through Self-Reflection” の解説記事です。 論文概要(Abstract) Retrieval-Augmented Generation(RAG)は外部知識を利用して事実性を向上させるが、従来のRAGは入力に関係...

📄 WACV 2023論文解説: SDSSL — 中間層自己蒸留によるSelf-Supervised Learningの表現品質向上

本記事は Self-Distilled Self-Supervised Representation Learning(Jang et al., WACV 2023)の解説記事です。 論文概要(Abstract) SDSSL(Self-Distilled Self-Supervised Learning)は、自己教師あり学習(SSL)の表現品質を隠れ層への自己蒸留により向上させる手法であ...

✍️ NVIDIA Tech Blog解説: CUDA Graphsによるllama.cpp推論最適化 — カーネルローンチオーバーヘッドの体系的削減

本記事は NVIDIA Developer Blog: “Optimizing llama.cpp AI Inference with CUDA Graphs” の解説記事です。 ブログ概要(Summary) NVIDIAは、llama.cppにCUDA Graphs最適化を実装することで、Llama 7BモデルのH100 GPU上でのデコード推論速度を最大1.2倍高速化したと報告してい...