📄 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する

本記事は Gated Delta Networks: Improving Mamba2 with Delta Rule (arXiv:2412.06464) の解説記事です。論文概要（Abstract） Gated DeltaNetは、State Space Model（SSM）であるMamba2のゲーティング機構とDelta Rule（差分更新則）を組み合わせた線形注意アーキテクチャ...

29/03/2026 blog paper

linear-attention DeltaNet Mamba +5

📄 論文解説: Direct Preference Optimization (DPO) — 報酬モデル不要のLLMアライメント手法

本記事は arXiv:2305.18290 “Direct Preference Optimization: Your Language Model is Secretly a Reward Model” の解説記事です。論文概要（Abstract）大規模言語モデルのアライメントにおいて、RLHF（Reinforcement Learning from Human Feedback）...

29/03/2026 blog paper

LLM alignment DPO +4

📄 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装

本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。論文概要（Abstract） DeepSeek-V2は、236Bの総パラメータ数に対し21Bのみを活性化する効率的なMoE型言語モデルである。著者らは2つの主要な技術革新を提案している。第一にMu...

29/03/2026 blog paper

MLA attention KV-cache +5

📄 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化

本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。論文概要（Abstract）大規模言語モデル（LLM）のサービングにおいて、高スループットを達成するには多数のリクエストを同時にバッチ処理する必要がある。しかし...

29/03/2026 blog paper

LLM inference KV-cache +4

📄 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLMサービングを高効率化

本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。論文概要（Abstract） Kwon et al. (UC Berkeley) は、LLMサービングにおけるKVキャッシュのメモリ断片化問題に取り組み、OSの仮...

29/03/2026 blog paper

LLM vLLM PagedAttention +6

📄 論文解説: DINOv2 — ラベルなし自己教師あり学習で汎用視覚特徴量を獲得する大規模フレームワーク

本記事は DINOv2: Learning Robust Visual Features without Supervision（Oquab et al., 2023）の解説記事です。論文概要（Abstract） DINOv2は、Meta AIが2023年に発表した自己教師あり学習フレームワークであり、ラベルなしで汎用的な視覚特徴量を獲得することを目指している。著者らは、既存の自己教師...

29/03/2026 blog paper

self-supervised-learning vision-transformer self-distillation +5

📄 論文解説: Orca — Iteration-Level Schedulingによる生成モデルサービングの革新

論文概要（Abstract） Orcaは、Transformer系生成モデルの推論サービングにおいてIteration-Level Scheduling（反復レベルスケジューリング）を導入したシステムである。従来のRequest-Level Scheduling（リクエストレベルスケジューリング）では、バッチ内の全リクエストが生成を完了するまで新たなリクエストを受け付けられなかった。Orc...

29/03/2026 blog paper

LLM inference serving +3

✍️ LLVM 20 SPIR-Vバックエンド公式昇格の技術的全貌：GlobalISelベースのGPUコンパイル統一基盤

本記事は LLVM 20 Promotes SPIR-V to Official Backend（Khronos Group）および SPIR-V Target User Guide（LLVM 20.1.0公式ドキュメント）の解説記事です。ブログ概要（Summary） 2025年1月28日、Khronos Groupは「LLVMの開発者がSPIR-VバックエンドをLLVM 20で実...

28/03/2026 blog tech_blog

SPIR-V LLVM GPU +3

📄 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク

本記事は arXiv:2412.05579 “Agents Are Not Enough”（2024年12月）の解説記事です。論文概要（Abstract）著者らは、単一のLLMエージェントアーキテクチャには記憶・推論・実行の分離不全という根本的な限界があることを指摘し、複数の専門エージェントが役割分担と相互批評を通じて協調するSociety of Agents（SoA）フレームワーク...

28/03/2026 blog paper

multi-agent LLM architecture +4

📄 ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク

本記事は A Unified Approach to Routing and Cascading for LLMs（Dekoninck, Baader, Vechev, ICLR 2025）の解説記事です。論文概要（Abstract） LLMのモデル選択戦略には、クエリに基づいて1つのモデルを選択する「ルーティング」と、小さいモデルから順に試行して満足な回答が得られるまで大きなモデルに...

28/03/2026 blog paper

LLM routing cascading +4

1
...
3
4
5
...
82
4 / 82