📄 SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は arXiv:2309.06180 の解説記事です。論文概要（Abstract）高スループットなLLMサービングにはリクエストのバッチ処理が不可欠であるが、各リクエストのKey-Value（KV）キャッシュは巨大かつ動的に増減するため、既存システムではメモリの断片化と過剰予約により60-80%が無駄になっていた。著者らはOS仮想メモリのページング技術に着想を得たPagedAt...

24/02/2026 blog paper

vLLM PagedAttention LLM +5

📄 ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較

論文概要（Abstract） LaRA（Benchmarking Retrieval-Augmented Generation and Long-Context LLMs）は、RAG（Retrieval-Augmented Generation）とLong-Context LLM（LC-LLM）を公正に比較するために設計されたベンチマークである。著者らは1,000問・4タスクタイプ・3ドメ...

24/02/2026 blog paper

RAG long-context LLM +2

📄 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク

本記事は MMTEB: Massive Multilingual Text Embedding Benchmark（arxiv:2502.13595）の解説記事です。論文概要（Abstract）テキスト埋め込みモデルの評価は、限られたタスクと言語の組み合わせで行われるのが一般的であり、モデルの強みと弱みの理解が不十分であった。Enevoldsenら（2025）はこの課題に対し、コミ...

24/02/2026 blog paper

embedding evaluation benchmark +4

📄 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価

本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks（arxiv:2601.06007）の解説記事です。論文概要（Abstract）本論文は、OpenAI・Anthropic・Googleの3社が提供するプロンプトキャッシュ機能を、マルチターンエージェント...

24/02/2026 blog paper

prompt-caching KV-cache LLM +4

📄 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索

本記事は arXiv:2505.20266 (syftr: Pareto-Optimal Generative AI) の解説記事です。論文概要（Abstract） syftr（Study Your Flow To Reason）は、RAGパイプラインの構成を自動最適化し、精度とコストのPareto frontier上にある最適構成を発見するフレームワークである。著者らはBayesia...

24/02/2026 blog paper

RAG Pareto optimization Bayesian optimization +4

📄 論文解説: MARA — LangGraphベースのマルチエージェントRAGアーキテクチャ

本記事は MARA: Multi-Agent RAG Architecture (arXiv:2504.04603) の解説記事です。論文概要（Abstract） MARAは、従来のsingle-agent RAGが抱えるスケーラビリティ・特化不足・並列処理不能の3課題に対し、Triage Agent・RAG Agent・Web Search Agentの3種の専門エージェントをLan...

24/02/2026 blog paper

multi-agent RAG LangGraph +7

📄 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク

本記事は JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models の解説記事です。論文概要（Abstract） LLMの構造化出力（Structured Output）は、JSONやコード等の決められた形式でモデル出力を制約する技術であり、エージェントアプリケーションやAPIレスポン...

24/02/2026 blog paper

structured-output constrained-decoding JSON-Schema +5

📄 論文解説: Don't Do RAG — Cache-Augmented Generation(CAG)がRAGを置き換える条件

本記事は arXiv:2501.00353 “Don’t Do RAG: When Cache-Augmented Generation is Better Than Retrieval-Augmented Generation” の解説記事です。論文概要（Abstract） Retrieval-Augmented Generation（RAG）はLLMに外部知識を接続する標準的アプロ...

24/02/2026 blog paper

RAG CAG KV-cache +5

📄 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

本記事は Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 の解説記事です。論文概要（Abstract） Bsharat, Myrzakhan, Shen（MBZUAI, 2024）は、LLMへのプロンプト品質を向上させるための26個のガイドライン原則を提案した。これらの原則はDo...

24/02/2026 blog paper

prompt-engineering LLM instruction-design +2

📄 NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント

本記事は Reflexion: Language Agents with Verbal Reinforcement Learning（Shinn et al., NeurIPS 2023）の解説記事です。論文概要（Abstract） Reflexionは、LLMエージェントが自身の実行結果を言語的に反省し、その反省をエピソードメモリに蓄積することで、重みの更新なしに試行ごとの性能を向上...

24/02/2026 blog paper

Reflexion ReAct LLM +6

1
...
71
72
73
...
110
72 / 110