📄 論文解説: DeepSeek-V2 — MoEモデルのKVキャッシュを93.3%削減するMulti-head Latent Attention

本記事は DeepSeek-V2: A Strong, Economical, and Efficient Mixture-of-Experts Language Model の解説記事です。論文概要（Abstract） DeepSeek-V2は、合計236Bパラメータのうちトークンあたり21Bのみを活性化するMoE（Mixture-of-Experts）言語モデルである。著者らは2つ...

27/02/2026 blog paper

MoE attention KV-cache +4

✍️ NVIDIA解説: NVFP4 KV Cacheで長コンテキストLLM推論を最適化 — メモリ50%削減・TTFT 3倍高速化

本記事は NVIDIA Technical Blog: Optimizing Inference for Long Context and Large Batch Sizes with NVFP4 KV Cache の解説記事です。ブログ概要（Summary） NVIDIAは、Blackwell GPU向けの4ビット浮動小数点フォーマットNVFP4をKV Cacheに適用し、LLM推論...

24/02/2026 blog tech_blog

NVIDIA Blackwell KV-cache +5

✍️ Meta AI解説: 量子化Llamaモデル — QATとSpinQuantで推論速度2.5倍・モデルサイズ56%削減

本記事は Meta AI Blog: Introducing quantized Llama models の解説記事です。ブログ概要（Summary） 2024年10月、Meta AIはLlama 3.2 1Bおよび3Bモデルの公式量子化版をリリースした。重み4bit（グループサイズ32）＋活性化8bit動的量子化のスキームにより、モデルサイズを56%削減、メモリ使用量を41%削減、...

24/02/2026 blog tech_blog

Llama quantization Meta +5

✍️ LangChain公式解説: LangGraphマルチエージェントワークフローの3設計パターン

本記事は LangGraph: Multi-Agent Workflows（LangChain公式ブログ）の解説記事です。ブログ概要（Summary） LangChainチームが公式ブログで発表した本記事は、LangGraphフレームワークを用いたマルチエージェントシステムの3つの主要設計パターン（Multi-Agent Collaboration、Agent Supervisor、...

24/02/2026 blog tech_blog

LangGraph multi-agent supervisor +7

✍️ Google Research解説: ReAct — 推論と行動のシナジーによるLLMエージェントの基盤パラダイム

本記事は ReAct: Synergizing Reasoning and Acting in Language Models（Google Research Blog）の解説記事です。ブログ概要（Summary） Google Researchが公開したこのブログ記事は、ReAct（Reasoning + Acting）パラダイムの設計思想と実証結果を解説している。ReActはLLM...

24/02/2026 blog tech_blog

ReAct chain-of-thought LLM +7

📄 論文解説: Qwen3 Embedding — 3段階学習とモデルマージで実現した多言語テキスト埋め込み

本記事は Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models（arxiv:2506.05176）および Qwen公式ブログの解説記事です。論文概要（Abstract） Qwen3-Embeddingシリーズは、Qwen3基盤モデル上に構築されたテキスト埋め込みおよびリラン...

24/02/2026 blog paper

embedding Qwen multilingual +4

📄 論文解説: AdaptiveRAG — クエリ複雑度分類器でRAG構成を動的適応し35%コスト削減

本記事は arXiv:2502.01618 (AdaptiveRAG: Learning to Adapt Retrieval-Augmented Generation) の解説記事です。論文概要（Abstract） AdaptiveRAGは、RAGパイプラインの構成をクエリの特性に基づいて推論時に動的に適応させるフレームワークである。著者らはBERT-baseの分類器でクエリを3段階...

24/02/2026 blog paper

RAG adaptive query routing +4

📄 ACL 2024論文解説: ChunkAttention — プレフィックスKVキャッシュ共有によるマルチテナント推論高速化

本記事は ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition（arxiv:2402.15220）の解説記事です。論文概要（Abstract） ChunkAttentionは、LLMサービングにおいて複数リクエストが共通のシステムプロンプト（プレフィックス...

24/02/2026 blog paper

ChunkAttention KV-cache prefix-sharing +2

📄 NeurIPS 2024論文解説: SGLang — RadixAttentionとCompressed FSMによるLLM推論高速化

本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2312.07104) の解説記事です。論文概要（Abstract） LLMを複数回呼び出して複雑なタスクを遂行する「構造化LLMプログラム」は、Few-shotプロンプティング、エージェント制御、JSON生成、RAGパイプライン等...

24/02/2026 blog paper

sglang llm-inference structured-output +4

✍️ PFN解説: PLaMo-Embedding-1B — LLM2Vecで実現した日本語JMTEBトップクラスの埋め込みモデル

本記事は Preferred Networks Tech Blog: テキスト埋め込みモデルPLaMo-Embedding-1Bの開発および Hugging Face Model Card: pfnet/plamo-embedding-1b の解説記事です。ブログ概要（Summary） Preferred Networks（PFN）は、日本語テキスト埋め込みモデルPLaMo-Embe...

24/02/2026 blog tech_blog

embedding PLaMo JMTEB +4

1
...
58
59
60
...
101
59 / 101