📄 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装

本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。論文概要（Abstract） DeepSeek-V2は、236Bの総パラメータ数に対し21Bのみを活性化する効率的なMoE型言語モデルである。著者らは2つの主要な技術革新を提案している。第一にMu...

29/03/2026 blog paper

MLA attention KV-cache +5

📄 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化

本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。論文概要（Abstract）大規模言語モデル（LLM）のサービングにおいて、高スループットを達成するには多数のリクエストを同時にバッチ処理する必要がある。しかし...

29/03/2026 blog paper

LLM inference KV-cache +4

📄 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLMサービングを高効率化

本記事は arXiv:2309.06180 “Efficient Memory Management for Large Language Model Serving with PagedAttention” の解説記事です。論文概要（Abstract） Kwon et al. (UC Berkeley) は、LLMサービングにおけるKVキャッシュのメモリ断片化問題に取り組み、OSの仮...

29/03/2026 blog paper

LLM vLLM PagedAttention +6

📄 論文解説: DINOv2 — ラベルなし自己教師あり学習で汎用視覚特徴量を獲得する大規模フレームワーク

本記事は DINOv2: Learning Robust Visual Features without Supervision（Oquab et al., 2023）の解説記事です。論文概要（Abstract） DINOv2は、Meta AIが2023年に発表した自己教師あり学習フレームワークであり、ラベルなしで汎用的な視覚特徴量を獲得することを目指している。著者らは、既存の自己教師...

29/03/2026 blog paper

self-supervised-learning vision-transformer self-distillation +5

📄 論文解説: Orca — Iteration-Level Schedulingによる生成モデルサービングの革新

論文概要（Abstract） Orcaは、Transformer系生成モデルの推論サービングにおいてIteration-Level Scheduling（反復レベルスケジューリング）を導入したシステムである。従来のRequest-Level Scheduling（リクエストレベルスケジューリング）では、バッチ内の全リクエストが生成を完了するまで新たなリクエストを受け付けられなかった。Orc...

29/03/2026 blog paper

LLM inference serving +3

✍️ LLVM 20 SPIR-Vバックエンド公式昇格の技術的全貌：GlobalISelベースのGPUコンパイル統一基盤

本記事は LLVM 20 Promotes SPIR-V to Official Backend（Khronos Group）および SPIR-V Target User Guide（LLVM 20.1.0公式ドキュメント）の解説記事です。ブログ概要（Summary） 2025年1月28日、Khronos Groupは「LLVMの開発者がSPIR-VバックエンドをLLVM 20で実...

28/03/2026 blog tech_blog

SPIR-V LLVM GPU +3

📄 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク

本記事は arXiv:2412.05579 “Agents Are Not Enough”（2024年12月）の解説記事です。論文概要（Abstract）著者らは、単一のLLMエージェントアーキテクチャには記憶・推論・実行の分離不全という根本的な限界があることを指摘し、複数の専門エージェントが役割分担と相互批評を通じて協調するSociety of Agents（SoA）フレームワーク...

28/03/2026 blog paper

multi-agent LLM architecture +4

📄 ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク

本記事は A Unified Approach to Routing and Cascading for LLMs（Dekoninck, Baader, Vechev, ICLR 2025）の解説記事です。論文概要（Abstract） LLMのモデル選択戦略には、クエリに基づいて1つのモデルを選択する「ルーティング」と、小さいモデルから順に試行して満足な回答が得られるまで大きなモデルに...

28/03/2026 blog paper

LLM routing cascading +4

📄 ICML 2025論文解説: BFCL — Berkeley Function Calling Leaderboard

本記事は The Berkeley Function Calling Leaderboard の解説記事です。論文概要 Patil, Mao, Yan, Ji, Suresh, Stoica, Gonzalez (2025) は、LLMのFunction Calling（関数呼び出し）能力を体系的に評価するためのベンチマーク BFCL（Berkeley Function Calling...

28/03/2026 blog paper

function-calling benchmark evaluation +3

✍️ Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール

本記事は Agent-Pex: Automated Evaluation and Testing of AI Agents の解説記事です。 AIエージェントの品質評価は、従来のソフトウェアテストとは根本的に異なる課題を含んでいる。LLMベースのエージェントは確率的な推論を行うため、同一入力に対しても異なる出力を返しうる。さらに、エージェントの振る舞いを定義する「仕様」はプロンプト内に自然...

28/03/2026 blog tech_blog

agent testing evaluation +3

1
...
50
51
52
...
128
51 / 128