Home
0h-n0 TechBLog
キャンセル

✍️ Meta AI解説: 量子化Llamaモデル — QATとSpinQuantで推論速度2.5倍・モデルサイズ56%削減

本記事は Meta AI Blog: Introducing quantized Llama models の解説記事です。 ブログ概要(Summary) 2024年10月、Meta AIはLlama 3.2 1Bおよび3Bモデルの公式量子化版をリリースした。重み4bit(グループサイズ32)+活性化8bit動的量子化のスキームにより、モデルサイズを56%削減、メモリ使用量を41%削減、...

✍️ LangChain公式解説: LangGraphマルチエージェントワークフローの3設計パターン

本記事は LangGraph: Multi-Agent Workflows(LangChain公式ブログ) の解説記事です。 ブログ概要(Summary) LangChainチームが公式ブログで発表した本記事は、LangGraphフレームワークを用いたマルチエージェントシステムの3つの主要設計パターン(Multi-Agent Collaboration、Agent Supervisor、...

✍️ Google Research解説: ReAct — 推論と行動のシナジーによるLLMエージェントの基盤パラダイム

本記事は ReAct: Synergizing Reasoning and Acting in Language Models(Google Research Blog)の解説記事です。 ブログ概要(Summary) Google Researchが公開したこのブログ記事は、ReAct(Reasoning + Acting)パラダイムの設計思想と実証結果を解説している。ReActはLLM...

📄 論文解説: AdaptiveRAG — クエリ複雑度分類器でRAG構成を動的適応し35%コスト削減

本記事は arXiv:2502.01618 (AdaptiveRAG: Learning to Adapt Retrieval-Augmented Generation) の解説記事です。 論文概要(Abstract) AdaptiveRAGは、RAGパイプラインの構成をクエリの特性に基づいて推論時に動的に適応させるフレームワークである。著者らはBERT-baseの分類器でクエリを3段階...

📄 ACL 2024論文解説: ChunkAttention — プレフィックスKVキャッシュ共有によるマルチテナント推論高速化

本記事は ChunkAttention: Efficient Self-Attention with Prefix-Aware KV Cache and Two-Phase Partition(arxiv:2402.15220) の解説記事です。 論文概要(Abstract) ChunkAttentionは、LLMサービングにおいて複数リクエストが共通のシステムプロンプト(プレフィックス...

📄 NeurIPS 2024論文解説: SGLang — RadixAttentionとCompressed FSMによるLLM推論高速化

本記事は SGLang: Efficient Execution of Structured Language Model Programs (arXiv:2312.07104) の解説記事です。 論文概要(Abstract) LLMを複数回呼び出して複雑なタスクを遂行する「構造化LLMプログラム」は、Few-shotプロンプティング、エージェント制御、JSON生成、RAGパイプライン等...

✍️ Anthropic解説: Effective Context Engineering for AI Agents

本記事は Effective Context Engineering for AI Agents(Anthropic Engineering Blog、2025年9月29日)の解説記事です。 ブログ概要(Summary) Anthropic Applied AIチームのPrithvi Rajasekaranらが公開した本ブログは、AIエージェントにおけるコンテキストエンジニアリングの体系...