本記事は https://arxiv.org/abs/2403.10407 の解説記事です。 論文概要(Abstract) SPLADE検索結果に対するリランキング手法の包括的比較研究である。著者らは、Cross-Encoder(DeBERTa-v3、ELECTRA等)とLLMベースのリランカー(GPT-4、GPT-3.5 Turbo等)を、TREC Deep Learning 2019...
本記事は arXiv:2212.10496 の解説記事です。 論文概要(Abstract) Luyu Gao, Xueguang Ma, Jimmy Lin, Jamie Callanらによる本論文は、関連性ラベルなしでゼロショットの高精度密検索(dense retrieval)を実現する手法「HyDE(Hypothetical Document Embeddings)」を提案している。...
本記事は arXiv:2409.18511 の解説記事です。 論文概要(Abstract) Yixuan Tang, Yi Yangらによる本論文は、汎用Embeddingモデルがドメイン固有テキスト(金融分野)において性能低下する現象を体系的に実証した研究である。著者らは金融テキストに特化したベンチマーク「FinMTEB」(64データセット、7タスク)を構築し、MTEB(Massive...
ブログ概要(Summary) 本記事は Automate Amazon Bedrock batch inference: Building a scalable and efficient pipeline の解説記事です。 AWSはAmazon Bedrockのバッチ推論において、1モデル・1リージョンあたり同時実行10ジョブという上限が存在する。この制約のもとで大量のバッチジョブを効...
論文概要(Abstract) 本記事は https://arxiv.org/abs/2407.15831 の解説記事です。 NV-Retrieverは、テキスト埋め込みモデルのfine-tuningにおけるhard negative mining手法を改善する研究である。著者らは、正例(positive)の関連度スコアを活用してfalse negativeを除去するPositive-aw...
本記事は arXiv:2601.00596 の解説記事です。 論文概要(Abstract) Sumanth Balaji, Piyush Mishra, Aashraya Sachdeva, Suraj Agrawalらによる本論文は、カスタマーサポート(CS)エージェントのマルチターン対話能力を評価するベンチマーク「JourneyBench」を提案している。著者らは、既存のCSベンチマ...
本記事は Google DeepMind — Gemini Flash および Google AI Blog: Gemini 3.5 Flash の解説記事です。 ブログ概要(Overview) Google DeepMindは2026年5月19日にGemini 3.5 Flashをリリースした。Googleはこのモデルを「our fastest, most efficient mode...
本記事は arXiv:2601.02744 の解説記事です。 論文概要(Abstract) Hanqi Jiang ら11名による本論文は、LLMエージェントのエピソード記憶とセマンティック記憶を動的グラフ上のSpreading Activationメカニズムで統合するアーキテクチャ「Synapse」を提案している。著者らは「a unified memory architecture t...
本記事は Mem0 State of AI Agent Memory 2026 の解説記事です。 ブログ概要(Summary) Mem0が2026年4月に公開した本レポートは、AIエージェントの記憶管理における現状を、ベンチマーク結果・アーキテクチャ設計・本番運用の3つの観点から分析したものである。Mem0の最新アルゴリズム(2026年4月版)は、LoCoMoベンチマークで92.5、Lo...
本記事は arXiv:2602.05665 の解説記事です。 論文概要(Abstract) Chang Yang ら18名による本サーベイは、LLMベースエージェントのメモリをグラフ構造で管理する手法を包括的に整理した研究である。著者らは「Memory emerges as the core module in LLM-based agents for long-horizon comp...