Home
0h-n0 TechBLog
キャンセル

✍️ ブログ解説: Right-size your PTU deployment and save big — Azure OpenAI PTUの適正サイジングとコスト最適化

本記事は Right-size your PTU deployment and save big の解説記事です。 ブログ概要 Azure OpenAI ServiceのProvisioned Throughput Units(PTU)は、専用のモデル処理容量を確保する予約型デプロイメントである。公式ブログでは、PTUのコストが高く見える主因は「ピーク負荷に合わせて全容量をPTUで確保し...

📄 論文解説: AI推論サービスの信頼性向上 — 本番障害156件の実証分析

本記事は Enhancing reliability in AI inference services: An empirical study on real production incidents の解説記事です。 論文概要 本論文は、大規模LLM推論サービスで発生した156件の高重大度インシデント(2025年4月〜6月)を体系的に分類・分析した実証研究である。著者らは4カテゴリから...

📄 論文解説: SageServe — 予測型オートスケーリングによるLLMサービング最適化

本記事は SageServe論文 の解説記事です。なお、本記事は論文の内容を解説するものであり、筆者が独自に実験を行ったものではありません。 論文概要 SageServeは、Microsoft Office 365における1日あたり1,000万件のLLM推論リクエストの分析に基づき設計された、クラウドデータセンター向けLLMサービングフレームワークである。短期的なリクエストルーティングと...

📄 論文解説: Intelligent Router for LLM Workloads — ワークロード特性を考慮したLLM推論の負荷分散

本記事は Intelligent Router for LLM Workloads: Improving Performance Through Workload-Aware Load Balancing の解説記事です。LLM推論における負荷分散の課題を、ワークロード特性を考慮した強化学習ベースのルーティングで解決するアプローチを詳しく解説します。 論文概要 大規模言語モデル(LLM)...

📄 論文解説: JSONSchemaBench — LLM構造化出力の体系的ベンチマーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2501.10868 の解説記事です。 JSONSchemaBenchは、LLMの構造化出力(Structured Output)を体系的に評価するベンチマークである。著者らは10,000件の実世界JSONスキーマを収集し、効率(efficiency)・カバレッジ(coverage)・品質(quality...

📄 論文解説: LMCache — エンタープライズLLM推論のための効率的KVキャッシュレイヤー

論文概要(Abstract) 本記事は https://arxiv.org/abs/2510.09665 の解説記事です。 LMCacheは、LLM推論におけるKVキャッシュをGPUメモリの外部に移動し、クエリ間および推論エンジン間で共有可能にするKVキャッシュ管理レイヤーである。従来、KVキャッシュはGPUメモリ上にのみ存在し、個々のクエリ処理後に破棄されていた。LMCacheはこのK...

📄 論文解説: A Few Good Clauses — LLM vs ドメイン特化小規模モデルの契約書抽出比較

論文概要(Abstract) 本記事は https://arxiv.org/abs/2605.05532 の解説記事です。 Lincoln らは、法的契約書からの構造化データ抽出タスクにおいて、ドメイン特化の小規模 Mixture of Experts(MoE)モデル「Olava Extract」が、5つの主要フロンティア LLM(Claude Opus 4.6、Claude Sonne...

📄 論文解説: ContractEval — LLMによる契約書条項レベルリスク特定ベンチマーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2508.03080 の解説記事です。 ContractEvalは、商業契約書からの条項レベルのリスク特定タスクにおいてLLMの性能を体系的に評価するベンチマークである。著者らはCUAD(Contract Understanding Atticus Dataset)テストセットの4,128データポイント・...