📄 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化

本記事は arXiv:2307.08691 “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning” の解説記事です。論文概要（Abstract） Tri Dao（Princeton/Together AI）は、FlashAttention v1のGPU利用率を25-40%から5...

29/03/2026 blog paper

FlashAttention GPU CUDA +7

📄 論文解説: QLoRA — 4bit量子化とLoRAの組み合わせで65Bモデルを単一GPUでファインチューニング

本記事は arXiv:2305.14314 “QLoRA: Efficient Finetuning of Quantized Large Language Models” の解説記事です。論文概要（Abstract） Dettmers et al.は、凍結された4bit量子化言語モデルに対してLoRA（Low-Rank Adapter）の勾配を逆伝播するQLoRAを提案した。著者らの...

29/03/2026 blog paper

QLoRA LoRA quantization +4

📄 WACV 2023論文解説: SDSSL — 中間層自己蒸留によるSelf-Supervised Learningの表現品質向上

本記事は Self-Distilled Self-Supervised Representation Learning（Jang et al., WACV 2023）の解説記事です。論文概要（Abstract） SDSSL（Self-Distilled Self-Supervised Learning）は、自己教師あり学習（SSL）の表現品質を隠れ層への自己蒸留により向上させる手法であ...

29/03/2026 blog paper

self-supervised-learning self-distillation vision-transformer +5

✍️ NVIDIA Tech Blog解説: CUDA Graphsによるllama.cpp推論最適化 — カーネルローンチオーバーヘッドの体系的削減

本記事は NVIDIA Developer Blog: “Optimizing llama.cpp AI Inference with CUDA Graphs” の解説記事です。ブログ概要（Summary） NVIDIAは、llama.cppにCUDA Graphs最適化を実装することで、Llama 7BモデルのH100 GPU上でのデコード推論速度を最大1.2倍高速化したと報告してい...

29/03/2026 blog tech_blog

CUDA GPU LLM +7

📄 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化

本記事は arXiv:2307.08691 “FlashAttention-2: Faster Attention with Better Parallelism and Work Partitioning” の解説記事です。論文概要（Abstract） TransformerのスケーリングにおいてAttention計算は主要なボトルネックである。FlashAttention（Dao ...

29/03/2026 blog paper

FlashAttention GPU attention +4

📄 論文解説: GQA — Grouped-Query AttentionによるKVキャッシュ効率化とMHAからの変換手法

本記事は GQA: Training Generalized Multi-Query Transformer Models from Multi-Head Checkpoints (arXiv:2305.13245) の解説記事です。論文概要（Abstract） Grouped-Query Attention（GQA）は、Multi-Head Attention（MHA）とMulti-...

29/03/2026 blog paper

GQA attention KV-cache +5

📄 CVPR 2025論文解説: COSMOS — クロスモーダル自己蒸留によるVision-Language事前学習の改善

本記事は COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training（Kim et al., CVPR 2025）の解説記事です。論文概要（Abstract） COSMOSは、Vision-Language Model（VLM）のコントラスティブ事前学習に自己蒸留を導入した手法であり、CVPR 20...

29/03/2026 blog paper

vision-language self-distillation CLIP +5

✍️ Cloudflare Tech Blog解説: Infire — Rust製LLM推論エンジンのエッジ最適化アーキテクチャ

本記事は Cloudflare Tech Blog: “How we built the most efficient inference engine for Cloudflare’s network” の解説記事です。ブログ概要（Summary） Cloudflareは自社エッジネットワーク向けに、Rust製LLM推論エンジンInfireをフルスクラッチ開発した。H100 NVL ...

29/03/2026 blog tech_blog

Rust LLM inference +6

📄 論文解説: DINOv3 — Gram Anchoringによる密な特徴量の安定化と7Bパラメータ自己蒸留

本記事は DINOv3（Siméoni et al., 2025）の解説記事です。論文概要（Abstract） DINOv3は、Meta AIが2025年に発表したDINO系列の最新の自己教師あり学習フレームワークである。7Bパラメータの教師モデル（ViT-7B）を約17億枚の画像（LVD-1689M）で学習し、DINOv2で課題とされていた「大規模・長時間学習時の密な特徴量（パッチレ...

29/03/2026 blog paper

self-supervised-learning vision-transformer self-distillation +5

📄 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する

本記事は Gated Delta Networks: Improving Mamba2 with Delta Rule (arXiv:2412.06464) の解説記事です。論文概要（Abstract） Gated DeltaNetは、State Space Model（SSM）であるMamba2のゲーティング機構とDelta Rule（差分更新則）を組み合わせた線形注意アーキテクチャ...

29/03/2026 blog paper

linear-attention DeltaNet Mamba +5

1
2
3
4
...
82
3 / 82