- ✍️ NVIDIA解説: ログ解析マルチエージェント自己修正型RAGシステム — Nemotronとハイブリッド検索の実装
- ✍️ Anthropic解説: Claude APIプロンプトキャッシュ — コスト90%削減・レイテンシ85%短縮の実装と料金設計
- 📄 論文解説: Agentic RAG with Knowledge Graphs for Clinical Practice Guideline Retrieval
- 📄 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論
- 📄 論文解説: CacheBlend — 選択的KV再計算によるRAGサービングの高速化
論文概要(Abstract) 本論文は、1.58-bit重み(三値 ${-1, 0, +1}$)で学習されたBitNet b1.58モデルをCPU上でロスレスかつ高速に推論するためのオープンソース基盤「1-bit AI Infra(bitnet.cpp)」を提案する。ARM NEON/I8MM命令とx86 AVX2/AVX-512/VNNI命令を活用したカスタムカーネルにより、FP16ベー...