論文概要 本記事は Qwen2.5-1M Technical Report (arXiv 2501.15383) の解説記事です。 Qwen2.5-1Mは、Alibaba Qwen Teamが開発した100万トークンのコンテキスト長を処理可能な大規模言語モデルである。長文データ合成・段階的事前学習・マルチステージSFTによる学習パイプラインと、Dual Chunk Attention(D...
論文概要 本記事は Kascade (arXiv 2512.16391) の解説記事です。 Kascadeは、長文脈LLM推論におけるアテンション計算のレイテンシを削減するための、訓練不要(training-free)な疎アテンション手法である。著者らは、post-softmaxアテンション分布の高重みキーが隣接レイヤー間で安定的に共有されるという観測に基づき、少数の「アンカーレイヤー」...
論文概要 本記事は LServe (arXiv 2502.14866) の解説記事です。LServeは、長文脈LLM推論におけるprefillおよびdecodeの両フェーズを統一的なブロックスパースアテンションで高速化するシステムである。静的スパーシティ(Streaming Head分類)と動的スパーシティ(クエリ依存ページ選択)を直交的に組み合わせることで、vLLMに対してprefill...
本記事は FlexPrefill: A Context-Aware Sparse Attention Mechanism for Efficient Long-Sequence Inference (arXiv 2502.20766) の解説記事です。 論文概要 FlexPrefillは、LLMの長文脈推論におけるprefillフェーズのアテンション計算を動的に疎化(スパース化)する手法...
論文概要 本記事は SparseServe (arXiv 2509.24626) の解説記事です。SparseServeは、長文脈LLM推論における動的疎アテンション(Dynamic Sparse Attention, DSA)のシステムレベルの課題を解決するサービングフレームワークである。DSAはアテンション計算量を削減するが、未使用のKVキャッシュがGPU HBM上に残留し並列処理を制...
ブログ概要(Summary) 本記事は Qdrant公式ブログ「Hybrid Search Revamped — Building with Qdrant’s Query API」 の解説記事です。 Qdrant社のKacper Łukawski氏が2024年7月に公開した本ブログ記事では、Qdrant 1.10で導入されたQuery APIを中心に、ハイブリッド検索をサーバーサイドで完...
論文概要(Abstract) 本記事は BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models(NeurIPS 2021 Dataset and Benchmark Track)の解説記事です。 著者らは、既存のニューラル情報検索(IR)モデルが均質で限定的な実験設定...
本記事は From BM25 to Corrective RAG: Benchmarking Retrieval Strategies for Text-and-Table Documents の解説記事です。 論文概要(Abstract) Retrieval-Augmented Generation(RAG)システムにおける検索品質の重要性にもかかわらず、テキストとテーブルが混在する異...
本記事は Balancing the Blend: An Experimental Analysis of Trade-offs in Hybrid Search の解説記事です。 論文概要(Abstract) ハイブリッド検索は、RAGパイプラインや情報検索システムにおいて検索精度を向上させる手法として広く採用されている。しかし、複数の検索パスを組み合わせることで生じる効果とコストのト...
本記事は M3-Embedding: Multi-Linguality, Multi-Functionality, Multi-Granularity Text Embeddings Through Self-Knowledge Distillation の解説記事です。 論文概要(Abstract) M3-Embedding(BGE-M3)は、1つのモデルからdense retriev...