本記事は Matryoshka Representation Learning (arXiv:2205.13147) の解説記事です。 論文概要(Abstract) Matryoshka Representation Learning(MRL)は、単一のニューラルネットワークから複数の次元粒度で有効な埋め込みベクトルを生成する学習手法である。著者らは、ロシアの入れ子人形(マトリョーシカ)...
📄 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法
本記事は Toward Efficient Inference for Mixture of Experts (NeurIPS 2024) の解説記事です。 論文概要(Abstract) 本論文は、MoE(Mixture-of-Experts)モデルの推論効率化に取り組んだ研究である。著者らは、言語モデリングと機械翻訳のワークロードを体系的に特性分析し、非効率性の原因を特定した上で、3つ...
本記事は NVIDIA Technical Blog: Optimizing llama.cpp AI Inference with CUDA Graphs の解説記事です。 ブログ概要(Summary) NVIDIAのAlan Gray氏(Principal Developer Technology Engineer)が2024年8月に公開した記事で、llama.cppにおけるCUDA...
本記事は Qwen2.5-Coder Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Coderは、Qwen2.5シリーズのコード特化モデルであり、1.5B・7B・32Bの3サイズで提供される。著者らの報告によれば、5.5兆トークンのコード関連データで学習し、32B-InstructバリアントはHumanEvalで92.7%(GPT-4o...
本記事は PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU の解説記事です。 論文概要(Abstract) PowerInferは、コンシューマGPU(RTX 4090/3090)とCPUのハイブリッド推論により、ローカル環境でのLLM推論を高速化するエンジンである。著者らは、LLMのFFN(F...
本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。 論文概要(Abstract) DeepSeek-V2は、合計236Bパラメータのうちトークンあたり21Bのみを活性化するMoE(Mixture-of-Experts)言語モデルである。著者らは2つ...
本記事は NVIDIA Technical Blog: Optimizing Inference for Long Context and Large Batch Sizes with NVFP4 KV Cache の解説記事です。 ブログ概要(Summary) NVIDIAは、Blackwell GPU向けの4ビット浮動小数点フォーマットNVFP4をKV Cacheに適用し、LLM推論...
本記事は Meta AI Blog: Introducing quantized Llama models の解説記事です。 ブログ概要(Summary) 2024年10月、Meta AIはLlama 3.2 1Bおよび3Bモデルの公式量子化版をリリースした。重み4bit(グループサイズ32)+活性化8bit動的量子化のスキームにより、モデルサイズを56%削減、メモリ使用量を41%削減、...
本記事は LangGraph: Multi-Agent Workflows(LangChain公式ブログ) の解説記事です。 ブログ概要(Summary) LangChainチームが公式ブログで発表した本記事は、LangGraphフレームワークを用いたマルチエージェントシステムの3つの主要設計パターン(Multi-Agent Collaboration、Agent Supervisor、...
本記事は ReAct: Synergizing Reasoning and Acting in Language Models(Google Research Blog)の解説記事です。 ブログ概要(Summary) Google Researchが公開したこのブログ記事は、ReAct(Reasoning + Acting)パラダイムの設計思想と実証結果を解説している。ReActはLLM...