本記事は arXiv:2307.08691 “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning” の解説記事です。 論文概要(Abstract) Tri Dao(Princeton/Together AI)は、FlashAttention v1のGPU利用率を25-40%から5...
本記事は arXiv:2305.14314 “QLoRA: Efficient Finetuning of Quantized Large Language Models” の解説記事です。 論文概要(Abstract) Dettmers et al.は、凍結された4bit量子化言語モデルに対してLoRA(Low-Rank Adapter)の勾配を逆伝播するQLoRAを提案した。著者らの...
本記事は Self-Distilled Self-Supervised Representation Learning(Jang et al., WACV 2023)の解説記事です。 論文概要(Abstract) SDSSL(Self-Distilled Self-Supervised Learning)は、自己教師あり学習(SSL)の表現品質を隠れ層への自己蒸留により向上させる手法であ...
本記事は NVIDIA Developer Blog: “Optimizing llama.cpp AI Inference with CUDA Graphs” の解説記事です。 ブログ概要(Summary) NVIDIAは、llama.cppにCUDA Graphs最適化を実装することで、Llama 7BモデルのH100 GPU上でのデコード推論速度を最大1.2倍高速化したと報告してい...
本記事は arXiv:2307.08691 “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning” の解説記事です。 論文概要(Abstract) TransformerのスケーリングにおいてAttention計算は主要なボトルネックである。FlashAttention(Dao ...
本記事は GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (arXiv:2305.13245) の解説記事です。 論文概要(Abstract) Grouped-Query Attention(GQA)は、Multi-Head Attention(MHA)とMulti-...
本記事は COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training(Kim et al., CVPR 2025)の解説記事です。 論文概要(Abstract) COSMOSは、Vision-Language Model(VLM)のコントラスティブ事前学習に自己蒸留を導入した手法であり、CVPR 20...
本記事は Cloudflare Tech Blog: “How we built the most efficient inference engine for Cloudflare’s network” の解説記事です。 ブログ概要(Summary) Cloudflareは自社エッジネットワーク向けに、Rust製LLM推論エンジンInfireをフルスクラッチ開発した。H100 NVL ...
本記事は DINOv3(Siméoni et al., 2025)の解説記事です。 論文概要(Abstract) DINOv3は、Meta AIが2025年に発表したDINO系列の最新の自己教師あり学習フレームワークである。7Bパラメータの教師モデル(ViT-7B)を約17億枚の画像(LVD-1689M)で学習し、DINOv2で課題とされていた「大規模・長時間学習時の密な特徴量(パッチレ...
本記事は Gated Delta Networks: Improving Mamba2 with Delta Rule (arXiv:2412.06464) の解説記事です。 論文概要(Abstract) Gated DeltaNetは、State Space Model(SSM)であるMamba2のゲーティング機構とDelta Rule(差分更新則)を組み合わせた線形注意アーキテクチャ...