Home
0h-n0 TechBLog
キャンセル

✍️ Anthropic API解説: トークン節約アップデート — キャッシュ・ツール効率化・レート制限最適化

ブログ概要(Summary) 本記事は https://www.anthropic.com/news/token-saving-updates の解説記事です。 2025年3月13日、AnthropicはClaude APIにおけるトークン消費を削減する4つのアップデートを発表した。(1) キャッシュ対応レート制限(Cache-Aware Rate Limits)により、プロンプトキャッ...

📄 論文解説: RACE — LLM推論パイプラインのコスト事前予測フレームワーク

論文概要(Abstract) 本記事は https://arxiv.org/abs/2502.04556 の解説記事です。 RACE(Reasoning-Aware Cost Estimation)は、LLM推論パイプラインの実行コストを事前に予測するフレームワークである。LLMパイプラインのコストは出力トークン数に大きく依存するが、この出力トークン数は実行前には不明である。RACEは小...

📄 ICLR 2024論文解説: FastGen — プロファイリング駆動の適応的KVキャッシュ圧縮

論文概要(Abstract) 本記事は https://arxiv.org/abs/2310.01801 の解説記事です。 大規模言語モデル(LLM)の推論時に生成されるKey-Value(KV)キャッシュは、長いコンテキストや大きなバッチサイズにおいてGPUメモリの主要なボトルネックとなる。著者らは、Attentionモジュールの内部構造をプロファイリングし、その結果に基づいてKVキャ...

📄 ICLR 2025論文解説: JudgeBench — LLM評価者自体の信頼性を問うベンチマーク

本記事は arXiv:2410.12784 の解説記事です。 論文概要(Abstract) Tan, Zhuang, Montgomery ら(UC Berkeley / Washington University in St. Louis, 2024)は、LLM-based Judgeの信頼性を客観的に評価するベンチマーク JudgeBench を提案した。既存のベンチマークが人間の主...

📄 論文解説: InferAct — LLMエージェントの安全なアクション推論と事前評価

論文概要 本記事は https://arxiv.org/abs/2407.11843 の解説記事です。 InferActは、LLMベースのエージェントが実行するアクションを事前に評価し、リスクの高いアクションを人間に確認させることで安全性を確保するフレームワークである。従来のアプローチがアクション実行後のエラー検出に依存していたのに対し、InferActはTheory-of-Mind(心...

📄 論文解説: A Survey on LLM-as-a-Judge — LLM評価者の体系的サーベイ

論文概要(Abstract) 本論文は、LLM(大規模言語モデル)を評価者として活用する「LLM-as-a-Judge」パラダイムに関する包括的サーベイである。著者らは、評価形式(pointwise/pairwise/binary/multiple-choice)、バイアスの分類(位置バイアス・冗長性バイアス・自己強化バイアスなど)、信頼性向上のための戦略(プロンプト設計・能力強化・出力最...