- ✍️ ブログ解説: Azure API Management統合AIゲートウェイ — LLMトークン監視とチャージバック基盤の構築
- ✍️ ブログ解説: Right-size your PTU deployment and save big — Azure OpenAI PTUの適正サイジングとコスト最適化
- 📄 論文解説: AI推論サービスの信頼性向上 — 本番障害156件の実証分析
- 📄 論文解説: SageServe — 予測型オートスケーリングによるLLMサービング最適化
- 📄 論文解説: Intelligent Router for LLM Workloads — ワークロード特性を考慮したLLM推論の負荷分散
本記事は https://arxiv.org/abs/2403.10407 の解説記事です。 論文概要(Abstract) SPLADE検索結果に対するリランキング手法の包括的比較研究である。著者らは、Cross-Encoder(DeBERTa-v3、ELECTRA等)とLLMベースのリランカー(GPT-4、GPT-3.5 Turbo等)を、TREC Deep Learning 2019...