📄 論文解説: The Instruction Hierarchy — LLMに命令の優先順位を学習させる

本記事は The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions の解説記事です。論文概要（Abstract） Wallace, Xiao, Leike, Zheng, Vu, Hajishirzi, Pang（OpenAI, 2024）は、LLMがコンテキストウィンドウ内のすべてのテ...

24/02/2026 blog paper

prompt-injection instruction-following LLM-security +2

📄 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減

本記事は arXiv:2406.02378 (RouteLLM: Learning to Route LLMs with Preference Data) の解説記事です。論文概要（Abstract） RouteLLMは、ユーザークエリに対して強モデル（高精度・高コスト）と弱モデル（低精度・低コスト）のどちらに振り分けるかを自動判定するルーターを、Chatbot Arenaの選好データ...

24/02/2026 blog paper

LLM model routing cost optimization +4

📄 論文解説: Adaptive-RAG — クエリ複雑度分類で検索戦略を動的に選択するRAGフレームワーク

本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity (arXiv:2404.19756) の解説記事です。論文概要（Abstract） Adaptive-RAGは、クエリの複雑度に基づいてRAGの検索戦略を動的に選択するフレー...

24/02/2026 blog paper

adaptive-rag query-complexity retrieval-strategy +7

📄 MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference（arxiv:2311.04934）の解説記事です。論文概要（Abstract） Prompt Cacheは、LLM推論においてプロンプト内の繰り返し出現するテキストセグメント（システムメッセージ、プロンプトテンプレート、ドキュメントコンテキスト等）...

24/02/2026 blog paper

prompt-caching KV-cache attention-reuse +2

📄 ICML 2024論文解説: LATS — モンテカルロ木探索でLLMエージェントの推論・行動・計画を統合

本記事は Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models（Zhou et al., ICML 2024）の解説記事です。論文概要（Abstract） LATS（Language Agent Tree Search）は、モンテカルロ木探索（MCTS）をLLMエージェント...

24/02/2026 blog paper

LATS MCTS tree-search +7

📄 SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は arXiv:2309.06180 の解説記事です。論文概要（Abstract）高スループットなLLMサービングにはリクエストのバッチ処理が不可欠であるが、各リクエストのKey-Value（KV）キャッシュは巨大かつ動的に増減するため、既存システムではメモリの断片化と過剰予約により60-80%が無駄になっていた。著者らはOS仮想メモリのページング技術に着想を得たPagedAt...

24/02/2026 blog paper

vLLM PagedAttention LLM +5

📄 ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較

論文概要（Abstract） LaRA（Benchmarking Retrieval-Augmented Generation and Long-Context LLMs）は、RAG（Retrieval-Augmented Generation）とLong-Context LLM（LC-LLM）を公正に比較するために設計されたベンチマークである。著者らは1,000問・4タスクタイプ・3ドメ...

24/02/2026 blog paper

RAG long-context LLM +2

📄 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク

本記事は MMTEB: Massive Multilingual Text Embedding Benchmark（arxiv:2502.13595）の解説記事です。論文概要（Abstract）テキスト埋め込みモデルの評価は、限られたタスクと言語の組み合わせで行われるのが一般的であり、モデルの強みと弱みの理解が不十分であった。Enevoldsenら（2025）はこの課題に対し、コミ...

24/02/2026 blog paper

embedding evaluation benchmark +4

📄 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価

本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks（arxiv:2601.06007）の解説記事です。論文概要（Abstract）本論文は、OpenAI・Anthropic・Googleの3社が提供するプロンプトキャッシュ機能を、マルチターンエージェント...

24/02/2026 blog paper

prompt-caching KV-cache LLM +4

📄 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索

本記事は arXiv:2505.20266 (syftr: Pareto-Optimal Generative AI) の解説記事です。論文概要（Abstract） syftr（Study Your Flow To Reason）は、RAGパイプラインの構成を自動最適化し、精度とコストのPareto frontier上にある最適構成を発見するフレームワークである。著者らはBayesia...

24/02/2026 blog paper

RAG Pareto optimization Bayesian optimization +4

1
...
69
70
71
...
109
70 / 109