最近の更新
vertexai 10
- 論文解説: S-LoRA — 数千のLoRAアダプタを同時サービングするメモリ管理手法 02/05/2026
- Google Cloud解説: llm-d — vLLMをKubernetes-nativeな分散推論に拡張するオープンソースプロジェクト 02/05/2026
- 論文解説: DistServe — Prefill/Decode分離によるLLMサービングのGoodput最適化 02/05/2026
- Meta Engineering解説: Scaling LLM Inference — Tensor/Context/Expert Parallelismの革新 02/05/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 02/05/2026
- 論文解説: Gemini Embedding — 250以上の言語に対応する汎用テキスト埋め込みモデル 20/03/2026
- Anthropic: Contextual Retrieval — RAG検索精度を最大67%改善するコンテキスト付与手法 20/03/2026
- NVIDIA TensorRT-LLM: KVキャッシュ再利用最適化による推論高速化の実装解説 20/03/2026
- 論文解説: CacheBlend — RAGにおけるKVキャッシュ融合による高速LLM推論 20/03/2026
- 論文解説: Gemini 1.5 — 100万トークン長文脈理解を実現するMoEアーキテクチャ 20/03/2026