本記事は NVIDIA Technical Blog: Optimizing Inference for Long Context and Large Batch Sizes with NVFP4 KV Cache の解説記事です。 ブログ概要(Summary) NVIDIAは、Blackwell GPU向けの4ビット浮動小数点フォーマットNVFP4をKV Cacheに適用し、LLM推論...
本記事は Meta AI Blog: Introducing quantized Llama models の解説記事です。 ブログ概要(Summary) 2024年10月、Meta AIはLlama 3.2 1Bおよび3Bモデルの公式量子化版をリリースした。重み4bit(グループサイズ32)+活性化8bit動的量子化のスキームにより、モデルサイズを56%削減、メモリ使用量を41%削減、...
本記事は LangGraph: Multi-Agent Workflows(LangChain公式ブログ) の解説記事です。 ブログ概要(Summary) LangChainチームが公式ブログで発表した本記事は、LangGraphフレームワークを用いたマルチエージェントシステムの3つの主要設計パターン(Multi-Agent Collaboration、Agent Supervisor、...
本記事は ReAct: Synergizing Reasoning and Acting in Language Models(Google Research Blog)の解説記事です。 ブログ概要(Summary) Google Researchが公開したこのブログ記事は、ReAct(Reasoning + Acting)パラダイムの設計思想と実証結果を解説している。ReActはLLM...
本記事は Qwen3 Embedding: Advancing Text Embedding and Reranking Through Foundation Models(arxiv:2506.05176) および Qwen公式ブログ の解説記事です。 論文概要(Abstract) Qwen3-Embeddingシリーズは、Qwen3基盤モデル上に構築されたテキスト埋め込みおよびリラン...
本記事は arXiv:2502.01618 (AdaptiveRAG: Learning to Adapt Retrieval-Augmented Generation) の解説記事です。 論文概要(Abstract) AdaptiveRAGは、RAGパイプラインの構成をクエリの特性に基づいて推論時に動的に適応させるフレームワークである。著者らはBERT-baseの分類器でクエリを3段階...
本記事は ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition(arxiv:2402.15220) の解説記事です。 論文概要(Abstract) ChunkAttentionは、LLMサービングにおいて複数リクエストが共通のシステムプロンプト(プレフィックス...
本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2312.07104) の解説記事です。 論文概要(Abstract) LLMを複数回呼び出して複雑なタスクを遂行する「構造化LLMプログラム」は、Few-shotプロンプティング、エージェント制御、JSON生成、RAGパイプライン等...
本記事は Preferred Networks Tech Blog: テキスト埋め込みモデルPLaMo-Embedding-1Bの開発 および Hugging Face Model Card: pfnet/plamo-embedding-1b の解説記事です。 ブログ概要(Summary) Preferred Networks(PFN)は、日本語テキスト埋め込みモデルPLaMo-Embe...
本記事は Effective Context Engineering for AI Agents(Anthropic Engineering Blog、2025年9月29日)の解説記事です。 ブログ概要(Summary) Anthropic Applied AIチームのPrithvi Rajasekaranらが公開した本ブログは、AIエージェントにおけるコンテキストエンジニアリングの体系...