Home
0h-n0 TechBLog
キャンセル

📄 論文解説: State of What Art? — マルチプロンプトLLM評価の必要性

論文概要(Abstract) LLMの評価は通常、単一のプロンプトテンプレートで行われる。しかし「プロンプト感受性」により、テンプレートを変えるだけでベンチマークスコアが最大10ポイント変動し、モデルランキングが大きく入れ替わることが25モデル×6タスクの大規模実験で明らかになった。本論文はこの問題を定量化し、多様なプロンプトセットを用いたマルチプロンプト評価手法を提案する。 この記事は...

📄 論文解説: The Complexity Trap — Observation MaskingはLLM要約と同等以上のコンテキスト管理効率を実現する

論文概要(Abstract) LLMベースのエージェントは反復的な推論・探索・ツール使用を通じて複雑なタスクを解決するが、その過程で長大かつ高コストなコンテキスト履歴が生成される。JetBrains Researchの本論文は、単純なObservation Masking(観測マスキング)戦略が、LLM要約と同等、場合によってはそれ以上のコスト効率を達成することを5つのモデル構成で実証した...

📄 論文解説: Chatbot Arena — 人間の選好投票によるLLM評価プラットフォーム

論文概要(Abstract) LLMの評価には、(1) ベンチマークが実世界のユースケースの多様性を捉えきれない、(2) 自動指標が人間の選好と乖離する、という2つの根本的な課題がある。Chatbot Arenaは100万件超の人間選好投票を収集するオープンプラットフォームを構築し、Bradley-Terryモデルによる統計的に頑健なランキングを実現した。4,000票で安定したランキングが...

📄 論文解説: Sarathi — Chunked PrefillとDecode Piggybackingで推論レイテンシを最大74%削減

論文概要(Abstract) Sarathiは、LLM推論のPrefillフェーズ(プロンプト処理)とDecodeフェーズ(トークン生成)を同一バッチ内で混合実行する手法である。長いプロンプトを固定サイズのチャンクに分割し(Chunked Prefill)、各チャンク処理中にDecodeリクエストを「ピギーバック」させることで、GPUの遊休計算リソースを有効活用する。Mistral-7Bで...

📄 論文解説: SGLang — RadixAttentionによるKVキャッシュ再利用で構造化LLMプログラムを最大5倍高速化

論文概要(Abstract) SGLangは、LLMの構造化プログラミングと推論実行をフロントエンド言語とランタイムの共同設計で最適化するシステムである。フロントエンドではテキスト生成(gen)、制約付き選択(select)、並列実行(fork)のプリミティブを提供し、バックエンドではRadixAttentionによるKVキャッシュのプレフィックス共有を実現する。JSONデコードで最大5倍...

📄 論文解説: Prompt Cache — モジュラーKVキャッシュ再利用でLLM推論TTFTを3.5倍高速化

論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプトの共通セグメント(システムプロンプト、ドキュメント、Few-Shot例)のKVキャッシュをモジュール単位で再利用するスキーマ非依存な高速化手法である。既存のモデル改変を一切必要とせず、Time to First Token(TTFT)を平均3.5倍高速化し、マルチリクエスト環境でスループットを5.2倍向上...

📄 論文解説: Orca — イテレーションレベルスケジューリングでLLM推論スループットを36.9倍に

論文概要(Abstract) Orcaは、Transformer系生成モデルのための分散サービングシステムである。自己回帰生成をイテレーション粒度で分解し、動的にバッチ構成を変更する「Continuous Batching」を提案した。加えてSelective BatchingとSLO対応スケジューリングにより、静的バッチングと比較して最大36.9倍のスループット向上を達成する。Frien...

📄 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLM推論スループットを最大4倍に

論文概要(Abstract) vLLMの中核技術であるPagedAttentionは、OSの仮想メモリとページング技法に着想を得たアテンションアルゴリズムである。LLM推論時に生じるKVキャッシュのメモリ断片化と重複保持を解消し、既存システムで60-80%にのぼるメモリ浪費を4%未満に削減する。結果として同一GPU上でのバッチサイズを最大4倍に拡大し、FasterTransformerやO...

✍️ AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド

ブログ概要(Summary) AWSが公開した「Evaluate Amazon Bedrock Agents with Ragas and LLM-as-a-judge」は、Amazon Bedrock上で動作するAIエージェントの品質を、RagasライブラリとLLM-as-a-Judge手法を用いて体系的に評価するフレームワークを解説した技術ブログである。エージェントの目標達成度(Cha...

📄 NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク

論文概要(Abstract) MMAU(Massive Multitask Agent Understanding)は、LLMエージェントの能力を5ドメイン×5能力次元の20タスク、3,000件以上のプロンプトで網羅的に評価するオフラインベンチマークである。NAACL 2025 Findingsに採択された本論文は、GPT-4o、Claude-3.5-Sonnet、Llama-3.1-40...