Home
0h-n0 TechBLog
キャンセル

📄 論文解説: A Survey of Agent Interoperability Protocols — MCP・ACP・A2A・ANPの比較分析

本記事は arXiv:2505.02279 の解説記事です。 論文概要(Abstract) AIエージェントの急速な普及に伴い、異種システム間の相互運用性を確保するための標準化された通信プロトコルが求められている。本論文は、Model Context Protocol(MCP)、Agent Communication Protocol(ACP)、Agent-to-Agent Protoc...

✍️ NVIDIA技術ブログ解説: Mastering LLM Techniques - 推論最適化の実践ガイド

ブログ概要(Summary) 本記事は https://developer.nvidia.com/blog/mastering-llm-techniques-inference-optimization/ の解説記事です。 NVIDIAのShashank VermaとNeal Vaidyaによる本ブログ(2023年11月17日公開、2024年8月15日更新)は、LLM推論における主要なボ...

📄 OSDI 2022論文解説: Orca - Iteration-Level SchedulingによるLLMサービング最適化

本記事は https://www.usenix.org/conference/osdi22/presentation/yu の解説記事です。 論文概要(Abstract) Orcaは、transformerベースの生成モデルに特化した分散サービングシステムである。著者らは、既存の推論サービングシステムがリクエスト単位でスケジューリングを行うことでGPU利用率が低下する問題を指摘し、ite...

📄 論文解説: SGLang - RadixAttentionとZero-Overhead Schedulerによる高性能LLM推論

本記事は https://arxiv.org/abs/2312.07104 の解説記事です。 論文概要(Abstract) SGLangは、構造化されたLLMプログラム(マルチターン会話、エージェント制御、JSON構造化出力など)を効率的に実行するためのシステムである。フロントエンド言語とランタイムの共同設計により、gen・fork・join・selectといったプリミティブで複雑なLL...

📄 論文解説: BatchLLM - 大規模バッチLLM推論のGlobal Prefix SharingとToken Batching最適化

本記事は https://arxiv.org/abs/2412.03594 の解説記事です。 論文概要(Abstract) BatchLLMは、大規模バッチLLM推論に特化した最適化システムである。既存のLLM推論エンジン(vLLM、SGLang等)はストリーミングリクエストへの応答を重視する設計であり、数千~数万件のリクエストをまとめて処理するバッチ推論シナリオでは、プレフィックスのK...

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は https://arxiv.org/abs/2309.06180 の解説記事です。本記事の著者自身が実験を行ったものではなく、論文の内容を解説・引用したものです。 論文概要(Abstract) PagedAttentionは、OSの仮想メモリにおけるページング機構からインスパイアされたattentionアルゴリズムである。LLMサービングにおけるKVキャッシュのメモリ管理を最適...

📄 論文解説: 2025年初頭のAIが経験豊富なOSS開発者の生産性に与える影響のRCT測定

本記事は arXiv:2507.09089 の解説記事です。 論文概要(Abstract) AIコーディングツールの生産性向上効果は、多くの場合、人工的なタスクや初心者プログラマーを対象とした研究で報告されてきた。本論文は、実際のオープンソースプロジェクトに貢献する経験豊富な開発者246名を対象とした無作為化比較試験(RCT)を実施し、6週間にわたって生産性への影響を測定した。結果として...

📄 AAAI 2024論文解説: ExpeL - 経験学習によるLLMエージェントの自律的知識獲得

本記事は arXiv:2308.10144 ExpeL: LLM Agents Are Experiential Learners の解説記事です。 論文概要(Abstract) Zhao, Huang, Xu, Lin, Liu, Huang(2023)は、LLMエージェントがパラメータの更新なしに、経験から自律的に知識を獲得し、将来のタスクに適用する手法「ExpeL(Experien...