✍️ NVIDIA技術ブログ解説: Run:ai + DynamoによるマルチノードスケジューリングでのLLM推論最適化

本記事は Smart Multi-Node Scheduling for Fast and Efficient LLM Inference with NVIDIA Run:ai and NVIDIA Dynamo（NVIDIA Developer Blog、2025年9月29日公開）の解説記事です。ブログ概要（Summary） NVIDIAのEkin Karabulut氏らが公開したこ...

08/03/2026 blog tech_blog

NVIDIA Dynamo Run:ai +6

✍️ NVIDIA技術ブログ解説: Triton + TensorRT-LLMによるKubernetes上のLLMスケーリング

本記事は Scaling LLMs with NVIDIA Triton and NVIDIA TensorRT-LLM Using Kubernetes（NVIDIA Developer Blog、2024年10月22日公開、2025年3月18日最終更新）の解説記事です。ブログ概要（Summary） NVIDIAのMaggie Zhang氏らが公開したこの技術ブログは、NVIDIA ...

08/03/2026 blog tech_blog

NVIDIA Triton TensorRT-LLM +6

✍️ Red Hat技術ブログ解説: KubernetesでvLLMをデプロイしGuideLLMでベンチマークする実践ガイド

本記事は How to deploy and benchmark vLLM with GuideLLM on Kubernetes（Red Hat Developer、2025年12月24日公開）の解説記事です。ブログ概要（Summary） Red Hat DeveloperのHarshith Umesh氏が公開したこの技術ブログは、LLM推論エンジンvLLMをKubernetes（O...

08/03/2026 blog tech_blog

vLLM Kubernetes GPU +5

✍️ OpenAI Responses API設計思想の解説：Assistants APIからの進化と技術的背景

ブログ概要（Summary） OpenAIが公開したブログ記事「Why we built the Responses API」では、Chat Completions APIの設計上の制約を克服するためにResponses APIを構築した背景と技術的設計思想が述べられている。推論状態のターン間保持（Reasoning State Preservation）、多態的な出力アイテム（Polym...

08/03/2026 blog tech_blog

OpenAI Responses API API design +3

📄 論文解説: A Survey of Agent Interoperability Protocols — MCP・ACP・A2A・ANPの比較分析

本記事は arXiv:2505.02279 の解説記事です。論文概要（Abstract） AIエージェントの急速な普及に伴い、異種システム間の相互運用性を確保するための標準化された通信プロトコルが求められている。本論文は、Model Context Protocol（MCP）、Agent Communication Protocol（ACP）、Agent-to-Agent Protoc...

08/03/2026 blog paper

MCP A2A ACP +7

✍️ NVIDIA技術ブログ解説: Mastering LLM Techniques - 推論最適化の実践ガイド

ブログ概要（Summary）本記事は https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/ の解説記事です。 NVIDIAのShashank VermaとNeal Vaidyaによる本ブログ（2023年11月17日公開、2024年8月15日更新）は、LLM推論における主要なボ...

07/03/2026 blog tech_blog

LLM NVIDIA inference-optimization +5

📄 OSDI 2022論文解説: Orca - Iteration-Level SchedulingによるLLMサービング最適化

本記事は https://www.usenix.org/conference/osdi22/presentation/yu の解説記事です。論文概要（Abstract） Orcaは、transformerベースの生成モデルに特化した分散サービングシステムである。著者らは、既存の推論サービングシステムがリクエスト単位でスケジューリングを行うことでGPU利用率が低下する問題を指摘し、ite...

07/03/2026 blog paper

LLM Orca continuous-batching +4

📄 論文解説: SGLang - RadixAttentionとZero-Overhead Schedulerによる高性能LLM推論

本記事は https://arxiv.org/abs/2312.07104 の解説記事です。論文概要（Abstract） SGLangは、構造化されたLLMプログラム（マルチターン会話、エージェント制御、JSON構造化出力など）を効率的に実行するためのシステムである。フロントエンド言語とランタイムの共同設計により、gen・fork・join・selectといったプリミティブで複雑なLL...

07/03/2026 blog paper

LLM SGLang RadixAttention +4

📄 論文解説: BatchLLM - 大規模バッチLLM推論のGlobal Prefix SharingとToken Batching最適化

本記事は https://arxiv.org/abs/2412.03594 の解説記事です。論文概要（Abstract） BatchLLMは、大規模バッチLLM推論に特化した最適化システムである。既存のLLM推論エンジン（vLLM、SGLang等）はストリーミングリクエストへの応答を重視する設計であり、数千～数万件のリクエストをまとめて処理するバッチ推論シナリオでは、プレフィックスのK...

07/03/2026 blog paper

LLM batch-inference prefix-sharing +4

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は https://arxiv.org/abs/2309.06180 の解説記事です。本記事の著者自身が実験を行ったものではなく、論文の内容を解説・引用したものです。論文概要（Abstract） PagedAttentionは、OSの仮想メモリにおけるページング機構からインスパイアされたattentionアルゴリズムである。LLMサービングにおけるKVキャッシュのメモリ管理を最適...

07/03/2026 blog paper

LLM vLLM PagedAttention +4

1
...
103
104
105
...
154
104 / 154