Home
0h-n0 TechBLog
キャンセル

📄 論文解説: The Instruction Hierarchy — LLMに命令の優先順位を学習させる

本記事は The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions の解説記事です。 論文概要(Abstract) Wallace, Xiao, Leike, Zheng, Vu, Hajishirzi, Pang(OpenAI, 2024)は、LLMがコンテキストウィンドウ内のすべてのテ...

📄 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減

本記事は arXiv:2406.02378 (RouteLLM: Learning to Route LLMs with Preference Data) の解説記事です。 論文概要(Abstract) RouteLLMは、ユーザークエリに対して強モデル(高精度・高コスト)と弱モデル(低精度・低コスト)のどちらに振り分けるかを自動判定するルーターを、Chatbot Arenaの選好データ...

📄 MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference(arxiv:2311.04934) の解説記事です。 論文概要(Abstract) Prompt Cacheは、LLM推論においてプロンプト内の繰り返し出現するテキストセグメント(システムメッセージ、プロンプトテンプレート、ドキュメントコンテキスト等)...

📄 SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は arXiv:2309.06180 の解説記事です。 論文概要(Abstract) 高スループットなLLMサービングにはリクエストのバッチ処理が不可欠であるが、各リクエストのKey-Value(KV)キャッシュは巨大かつ動的に増減するため、既存システムではメモリの断片化と過剰予約により60-80%が無駄になっていた。著者らはOS仮想メモリのページング技術に着想を得たPagedAt...

📄 ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較

論文概要(Abstract) LaRA(Benchmarking Retrieval-Augmented Generation and Long-Context LLMs)は、RAG(Retrieval-Augmented Generation)とLong-Context LLM(LC-LLM)を公正に比較するために設計されたベンチマークである。著者らは1,000問・4タスクタイプ・3ドメ...

📄 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク

本記事は MMTEB: Massive Multilingual Text Embedding Benchmark(arxiv:2502.13595) の解説記事です。 論文概要(Abstract) テキスト埋め込みモデルの評価は、限られたタスクと言語の組み合わせで行われるのが一般的であり、モデルの強みと弱みの理解が不十分であった。Enevoldsenら(2025)はこの課題に対し、コミ...

📄 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価

本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks(arxiv:2601.06007) の解説記事です。 論文概要(Abstract) 本論文は、OpenAI・Anthropic・Googleの3社が提供するプロンプトキャッシュ機能を、マルチターンエージェント...

📄 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索

本記事は arXiv:2505.20266 (syftr: Pareto-Optimal Generative AI) の解説記事です。 論文概要(Abstract) syftr(Study Your Flow To Reason)は、RAGパイプラインの構成を自動最適化し、精度とコストのPareto frontier上にある最適構成を発見するフレームワークである。著者らはBayesia...