本記事は https://aws.amazon.com/blogs/machine-learning/managed-tiered-kv-cache-and-intelligent-routing-for-amazon-sagemaker-hyperpod/ の解説記事です。 ブログ概要(Summary) AWSは2025年11月、Amazon SageMaker HyperPod向けに...
本記事は https://developer.nvidia.com/blog/llm-inference-benchmarking-how-much-does-your-llm-inference-cost/ の解説記事です。 ブログ概要 NVIDIAが2025年6月に公開した「LLM Inference Benchmarking: How Much Does Your LLM Infe...
ブログ概要(Summary) 本記事は https://www.anthropic.com/news/token-saving-updates の解説記事です。 2025年3月13日、AnthropicはClaude APIにおけるトークン消費を削減する4つのアップデートを発表した。(1) キャッシュ対応レート制限(Cache-Aware Rate Limits)により、プロンプトキャッ...
論文概要(Abstract) 本記事は https://arxiv.org/abs/2502.04556 の解説記事です。 RACE(Reasoning-Aware Cost Estimation)は、LLM推論パイプラインの実行コストを事前に予測するフレームワークである。LLMパイプラインのコストは出力トークン数に大きく依存するが、この出力トークン数は実行前には不明である。RACEは小...
論文概要(Abstract) 本記事は https://arxiv.org/abs/2310.01801 の解説記事です。 大規模言語モデル(LLM)の推論時に生成されるKey-Value(KV)キャッシュは、長いコンテキストや大きなバッチサイズにおいてGPUメモリの主要なボトルネックとなる。著者らは、Attentionモジュールの内部構造をプロファイリングし、その結果に基づいてKVキャ...
本記事は You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects (Isaku et al., 2024) の解説記事です。 この記事は Zenn記事: LangSmithで本番エージェント障害を分析しCI/CDテストを自動化する の深掘りです。Zenn記事ではLangSmithを活用したCI/C...
本記事は Judging the Judges: A Systematic Study of Position Bias in Pairwise Evaluation with LLM-as-a-Judge (Shi et al., 2024) の解説記事です。 この記事は Zenn記事: LangSmithで本番エージェント障害を分析しCI/CDテストを自動化する の深掘りです。LLM-...
本記事は arXiv:2410.12784 の解説記事です。 論文概要(Abstract) Tan, Zhuang, Montgomery ら(UC Berkeley / Washington University in St. Louis, 2024)は、LLM-based Judgeの信頼性を客観的に評価するベンチマーク JudgeBench を提案した。既存のベンチマークが人間の主...
論文概要 本記事は https://arxiv.org/abs/2407.11843 の解説記事です。 InferActは、LLMベースのエージェントが実行するアクションを事前に評価し、リスクの高いアクションを人間に確認させることで安全性を確保するフレームワークである。従来のアプローチがアクション実行後のエラー検出に依存していたのに対し、InferActはTheory-of-Mind(心...
論文概要(Abstract) 本論文は、LLM(大規模言語モデル)を評価者として活用する「LLM-as-a-Judge」パラダイムに関する包括的サーベイである。著者らは、評価形式(pointwise/pairwise/binary/multiple-choice)、バイアスの分類(位置バイアス・冗長性バイアス・自己強化バイアスなど)、信頼性向上のための戦略(プロンプト設計・能力強化・出力最...