✍️ Haystack公式ベンチマーク解説: RAGパイプラインのパラメータチューニングと評価手法

本記事は Benchmarking Haystack Pipelines for Optimal Performance（deepset公式ブログ、2024年6月24日公開）の解説記事です。ブログ概要（Summary） deepset社のSenior NLP EngineerであるDavid Batistaは、Haystack 2.xのRAGパイプラインを系統的にベンチマークする手法と...

14/03/2026 blog tech_blog

Haystack RAG benchmark +2

✍️ Anthropic Contextual Retrieval解説: チャンクへのコンテキスト付与でRAG検索精度を67%改善

本記事は Introducing Contextual Retrieval（Anthropic, 2024年9月）の解説記事です。ブログ概要（Summary） Anthropicは、RAG（Retrieval-Augmented Generation）パイプラインにおける検索精度の課題を解決するためにContextual Retrievalを提案している。従来のチャンク分割では文書全体...

14/03/2026 blog tech_blog

contextual-retrieval RAG reranking +5

✍️ Anthropic Research解説: Building Effective AI Agents — エージェント設計パターンの実践ガイド

本記事は Building Effective AI Agents（Anthropic Research、2024年12月19日公開）の解説記事です。ブログ概要（Summary） Anthropicが2024年12月に公開したAIエージェント設計の公式ガイドである。著者のErik SchluntzとBarry Zhangは、数十チームのエージェント構築を支援した経験から、ワークフロー（...

14/03/2026 blog tech_blog

agent LLM architecture +4

📄 論文解説: Agent Design Pattern Catalogue — 基盤モデルエージェントの18アーキテクチャパターン

本記事は Agent Design Pattern Catalogue: A Collection of Architectural Patterns for Foundation Model based Agents（Yilmaz et al., 2024）の解説記事です。論文概要（Abstract）本論文は、基盤モデル（Foundation Model）ベースのAIエージェントを...

14/03/2026 blog paper

agent llm design-patterns +2

📄 論文解説: Empowering Working Memory for LLM Agents — 作業記憶の動的管理

本記事は Empowering Working Memory for Large Language Model Agents（2024）の解説記事です。論文概要（Abstract） LLMエージェントにおける作業記憶（Working Memory）は、現在のタスク実行に必要な情報を一時的に保持・操作する認知機能に対応する。本論文は、LLMのコンテキストウィンドウを作業記憶として捉え、そ...

14/03/2026 blog paper

agent llm memory +2

📄 ICDE 2025論文解説: Compound AIシステムのBlueprint Architecture — エージェントとデータのオーケストレーション設計

本記事は Compound AI Systems Blueprint Architecture（ICDE 2025 DAISワークショップ）の解説記事です。論文概要（Abstract） LLMの産業利用が進む中、単一モデルからCompound AIシステム（複数AIコンポーネントの協調システム）への移行が加速している。著者らは、エンタープライズ環境でエージェントとデータをオーケストレー...

14/03/2026 blog paper

compound-ai architecture agent +5

📄 論文解説: RAGBench — 説明可能な4次元メトリクスによるRAGパイプライン評価ベンチマーク

この記事はAIによって生成されたものであり、内容の正確性については読者自身でご確認ください。論文概要 RAGBench（Friel, Belyi, Sanyal, 2024）は、Retrieval-Augmented Generation（RAG）システムの包括的評価を目的とした大規模ベンチマークデータセットである。著者らは約10万件のラベル付き事例を12のソースデータセットか...

14/03/2026 blog paper

RAG evaluation benchmark +2

📄 EMNLP 2025論文解説: How Good are LLM-based Rerankers? — リランキングモデルの実証分析

本記事は How Good are LLM-based Rerankers? An Empirical Analysis of State-of-the-Art Reranking Models（Abdallah et al., EMNLP 2025 Findings）の解説記事です。論文概要（Abstract）本論文は、LLMベース・軽量コンテキスト型・ゼロショット型を含む最先端の...

14/03/2026 blog paper

reranking LLM cross-encoder +5

📄 論文解説: Reflexion — 言語エージェントのための言語的強化学習

本記事は Reflexion: Language Agents with Verbal Reinforcement Learning（Shinn et al., NeurIPS 2023）の解説記事です。論文概要（Abstract） Reflexionは、大規模言語モデル（LLM）エージェントが勾配更新なしに過去の経験から学習するためのフレームワークである。従来の強化学習がスカラー報酬...

14/03/2026 blog paper

agent llm reinforcement-learning +2

📄 ICLR 2025論文解説: RouteLLM — 人間の嗜好データからLLMルーティングを学習する

本記事は RouteLLM: Learning to Route LLMs with Preference Data（ICLR 2025採択）の解説記事です。論文概要（Abstract） RouteLLMは、推論時にクエリの複雑度に応じて強いLLM（GPT-4等）と弱いLLM（Mixtral-8x7B等）を動的に振り分けるルーターモデルの学習フレームワークである。Chatbot Are...

14/03/2026 blog paper

LLM model-routing cost-optimization +4

1
...
23
24
25
...
86
24 / 86