最近の更新
quantization 13
- 論文解説: グラフ型ベクトル検索の包括的実験評価 — HNSW・DiskANN・RoarGraph・ACORNを同一条件で比較 31/03/2026
- 論文解説: QLoRA — 4bit量子化とLoRAの組み合わせで65Bモデルを単一GPUでファインチューニング 29/03/2026
- 論文解説: LUT-LLM — ルックアップテーブルによるFPGA上のLLM推論高速化 27/03/2026
- 論文解説: FlightLLM — FPGAによるLLM推論の完全マッピングフロー 27/03/2026
- 論文解説: MoEオフロードによる大規模スパースモデルの高速推論 25/03/2026
- NVIDIA解説: NVFP4 KV Cacheで長コンテキストLLM推論を最適化 — メモリ50%削減・TTFT 3倍高速化 24/02/2026
- Meta AI解説: 量子化Llamaモデル — QATとSpinQuantで推論速度2.5倍・モデルサイズ56%削減 24/02/2026
- MLSys 2024 Best Paper解説: AWQ — 活性化ベース重み量子化でLLMを4bitに圧縮 24/02/2026
- NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現 24/02/2026
- Google Research解説: SOAR — ScaNNを加速する直交残差スピリングアルゴリズム 19/02/2026
- 論文解説: pgvectorscale — PostgreSQLをAIアプリケーション向けにスケールさせる拡張 19/02/2026
- Microsoft Research解説: 低ビット量子化がエッジデバイスでのLLM展開を実現する — T-MAC・LUT Tensor Core・Ladderの技術全容 17/02/2026
- 論文解説: 1-bit AI Infra — BitNet b1.58のCPU推論を最大6.17倍高速化するオープンソース基盤 17/02/2026