Home
0h-n0 TechBLog
キャンセル

📄 SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は arXiv:2309.06180 の解説記事です。 論文概要(Abstract) 高スループットなLLMサービングにはリクエストのバッチ処理が不可欠であるが、各リクエストのKey-Value(KV)キャッシュは巨大かつ動的に増減するため、既存システムではメモリの断片化と過剰予約により60-80%が無駄になっていた。著者らはOS仮想メモリのページング技術に着想を得たPagedAt...

📄 ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較

論文概要(Abstract) LaRA(Benchmarking Retrieval-Augmented Generation and Long-Context LLMs)は、RAG(Retrieval-Augmented Generation)とLong-Context LLM(LC-LLM)を公正に比較するために設計されたベンチマークである。著者らは1,000問・4タスクタイプ・3ドメ...

📄 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク

本記事は MMTEB: Massive Multilingual Text Embedding Benchmark(arxiv:2502.13595) の解説記事です。 論文概要(Abstract) テキスト埋め込みモデルの評価は、限られたタスクと言語の組み合わせで行われるのが一般的であり、モデルの強みと弱みの理解が不十分であった。Enevoldsenら(2025)はこの課題に対し、コミ...

📄 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価

本記事は Don’t Break the Cache: An Evaluation of Prompt Caching for Long-Horizon Agentic Tasks(arxiv:2601.06007) の解説記事です。 論文概要(Abstract) 本論文は、OpenAI・Anthropic・Googleの3社が提供するプロンプトキャッシュ機能を、マルチターンエージェント...

📄 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索

本記事は arXiv:2505.20266 (syftr: Pareto-Optimal Generative AI) の解説記事です。 論文概要(Abstract) syftr(Study Your Flow To Reason)は、RAGパイプラインの構成を自動最適化し、精度とコストのPareto frontier上にある最適構成を発見するフレームワークである。著者らはBayesia...

📄 論文解説: MARA — LangGraphベースのマルチエージェントRAGアーキテクチャ

本記事は MARA: Multi-Agent RAG Architecture (arXiv:2504.04603) の解説記事です。 論文概要(Abstract) MARAは、従来のsingle-agent RAGが抱えるスケーラビリティ・特化不足・並列処理不能の3課題に対し、Triage Agent・RAG Agent・Web Search Agentの3種の専門エージェントをLan...

📄 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク

本記事は JSONSchemaBench: A Rigorous Benchmark of Structured Outputs for Language Models の解説記事です。 論文概要(Abstract) LLMの構造化出力(Structured Output)は、JSONやコード等の決められた形式でモデル出力を制約する技術であり、エージェントアプリケーションやAPIレスポン...

📄 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4

本記事は Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 の解説記事です。 論文概要(Abstract) Bsharat, Myrzakhan, Shen(MBZUAI, 2024)は、LLMへのプロンプト品質を向上させるための26個のガイドライン原則を提案した。これらの原則はDo...

📄 NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント

本記事は Reflexion: Language Agents with Verbal Reinforcement Learning(Shinn et al., NeurIPS 2023)の解説記事です。 論文概要(Abstract) Reflexionは、LLMエージェントが自身の実行結果を言語的に反省し、その反省をエピソードメモリに蓄積することで、重みの更新なしに試行ごとの性能を向上...