📄 論文解説: FrugalGPT — LLMカスケード・プロンプト適応・近似の3戦略で最大98%コスト削減

本記事は arXiv:2309.15025 (FrugalGPT: How to Use Large Language Models While Reducing Cost and Improving Performance) の解説記事です。論文概要（Abstract） FrugalGPTは、LLMのAPI利用コストを削減しながら性能を維持・向上させる3つの相補的戦略を提案する。著者...

24/02/2026 blog paper

LLM cost optimization cascade +4

📄 論文解説: ReWOO — 観察を分離した効率的エージェント推論でトークン消費を大幅削減

本記事は ReWOO: Decoupling Reasoning from Observations for Efficient Augmented Language Models（Xu et al., 2023）の解説記事です。論文概要（Abstract） ReWOO（Reasoning WithOut Observation）は、Augmented Language Model（A...

24/02/2026 blog paper

ReWOO ReAct LLM +7

✍️ Databricks解説: Embeddingモデルのファインチューニングで検索・RAG精度を向上させる

本記事は Databricks Blog: Improving Retrieval and RAG with Embedding Model Finetuning の解説記事です。ブログ概要（Summary） Databricksは、汎用Embeddingモデルをドメイン特化データでファインチューニングすることにより、ベクトル検索およびRAGパイプラインの精度を大幅に向上させる手法を紹...

24/02/2026 blog tech_blog

embedding fine-tuning RAG +4

📄 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ

論文概要（Abstract）本論文は、従来の静的・単一ターン型RAG（Retrieval-Augmented Generation）の限界を超え、自律エージェントが動的意思決定・多段階推論・適応的検索を行う「Agentic RAG」を包括的にサーベイした研究である。著者らは、Naive RAG → Advanced RAG → Modular RAG → Agentic RAGという進化...

24/02/2026 blog paper

RAG agent LLM +2

📄 論文解説: XGrammar — 語彙分割とキャッシュによる高速構造化出力エンジン

本記事は XGrammar: Flexible and Efficient Structured Generation Engine for Large Language Models の解説記事です。論文概要（Abstract） LLMの構造化出力を文脈自由文法（CFG）で制約する手法は柔軟性が高いが、トークンごとの文法検証に計算コストがかかる問題があった。著者らは、語彙全体を「文脈...

24/02/2026 blog paper

structured-output constrained-decoding XGrammar +4

📄 論文解説: The Instruction Hierarchy — LLMに命令の優先順位を学習させる

本記事は The Instruction Hierarchy: Training LLMs to Prioritize Privileged Instructions の解説記事です。論文概要（Abstract） Wallace, Xiao, Leike, Zheng, Vu, Hajishirzi, Pang（OpenAI, 2024）は、LLMがコンテキストウィンドウ内のすべてのテ...

24/02/2026 blog paper

prompt-injection instruction-following LLM-security +2

📄 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減

本記事は arXiv:2406.02378 (RouteLLM: Learning to Route LLMs with Preference Data) の解説記事です。論文概要（Abstract） RouteLLMは、ユーザークエリに対して強モデル（高精度・高コスト）と弱モデル（低精度・低コスト）のどちらに振り分けるかを自動判定するルーターを、Chatbot Arenaの選好データ...

24/02/2026 blog paper

LLM model routing cost optimization +4

📄 論文解説: Adaptive-RAG — クエリ複雑度分類で検索戦略を動的に選択するRAGフレームワーク

本記事は Adaptive-RAG: Learning to Adapt Retrieval-Augmented Large Language Models through Question Complexity (arXiv:2404.19756) の解説記事です。論文概要（Abstract） Adaptive-RAGは、クエリの複雑度に基づいてRAGの検索戦略を動的に選択するフレー...

24/02/2026 blog paper

adaptive-rag query-complexity retrieval-strategy +7

📄 MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論

本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference（arxiv:2311.04934）の解説記事です。論文概要（Abstract） Prompt Cacheは、LLM推論においてプロンプト内の繰り返し出現するテキストセグメント（システムメッセージ、プロンプトテンプレート、ドキュメントコンテキスト等）...

24/02/2026 blog paper

prompt-caching KV-cache attention-reuse +2

📄 ICML 2024論文解説: LATS — モンテカルロ木探索でLLMエージェントの推論・行動・計画を統合

本記事は Language Agent Tree Search Unifies Reasoning Acting and Planning in Language Models（Zhou et al., ICML 2024）の解説記事です。論文概要（Abstract） LATS（Language Agent Tree Search）は、モンテカルロ木探索（MCTS）をLLMエージェント...

24/02/2026 blog paper

LATS MCTS tree-search +7

1
...
68
69
70
...
108
69 / 108