Home
0h-n0 TechBLog
キャンセル

📄 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法

本記事は Toward Efficient Inference for Mixture of Experts (NeurIPS 2024) の解説記事です。 論文概要(Abstract) 本論文は、MoE(Mixture-of-Experts)モデルの推論効率化に取り組んだ研究である。著者らは、言語モデリングと機械翻訳のワークロードを体系的に特性分析し、非効率性の原因を特定した上で、3つ...

📄 論文解説: Qwen2.5-Coder — 5.5兆トークンで学習したオープンソースコーディングLLMの設計と性能

本記事は Qwen2.5-Coder Technical Report の解説記事です。 論文概要(Abstract) Qwen2.5-Coderは、Qwen2.5シリーズのコード特化モデルであり、1.5B・7B・32Bの3サイズで提供される。著者らの報告によれば、5.5兆トークンのコード関連データで学習し、32B-InstructバリアントはHumanEvalで92.7%(GPT-4o...

📄 論文解説: PowerInfer — コンシューマGPUでLLM推論を最大11.69倍高速化するCPU-GPUハイブリッドエンジン

本記事は PowerInfer: Fast Large Language Model Serving with a Consumer-grade GPU の解説記事です。 論文概要(Abstract) PowerInferは、コンシューマGPU(RTX 4090/3090)とCPUのハイブリッド推論により、ローカル環境でのLLM推論を高速化するエンジンである。著者らは、LLMのFFN(F...

✍️ Meta AI解説: 量子化Llamaモデル — QATとSpinQuantで推論速度2.5倍・モデルサイズ56%削減

本記事は Meta AI Blog: Introducing quantized Llama models の解説記事です。 ブログ概要(Summary) 2024年10月、Meta AIはLlama 3.2 1Bおよび3Bモデルの公式量子化版をリリースした。重み4bit(グループサイズ32)+活性化8bit動的量子化のスキームにより、モデルサイズを56%削減、メモリ使用量を41%削減、...

✍️ LangChain公式解説: LangGraphマルチエージェントワークフローの3設計パターン

本記事は LangGraph: Multi-Agent Workflows(LangChain公式ブログ) の解説記事です。 ブログ概要(Summary) LangChainチームが公式ブログで発表した本記事は、LangGraphフレームワークを用いたマルチエージェントシステムの3つの主要設計パターン(Multi-Agent Collaboration、Agent Supervisor、...

✍️ Google Research解説: ReAct — 推論と行動のシナジーによるLLMエージェントの基盤パラダイム

本記事は ReAct: Synergizing Reasoning and Acting in Language Models(Google Research Blog)の解説記事です。 ブログ概要(Summary) Google Researchが公開したこのブログ記事は、ReAct(Reasoning + Acting)パラダイムの設計思想と実証結果を解説している。ReActはLLM...