Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Qwen2.5-1M — 100万トークンコンテキストを実現する長文脈LLMの設計と推論最適化

論文概要 本記事は Qwen2.5-1M Technical Report (arXiv 2501.15383) の解説記事です。 Qwen2.5-1Mは、Alibaba Qwen Teamが開発した100万トークンのコンテキスト長を処理可能な大規模言語モデルである。長文データ合成・段階的事前学習・マルチステージSFTによる学習パイプラインと、Dual Chunk Attention(D...

📄 論文解説: Kascade — レイヤー間スパーシティ再利用による実用的長文脈LLM推論高速化

論文概要 本記事は Kascade (arXiv 2512.16391) の解説記事です。 Kascadeは、長文脈LLM推論におけるアテンション計算のレイテンシを削減するための、訓練不要(training-free)な疎アテンション手法である。著者らは、post-softmaxアテンション分布の高重みキーが隣接レイヤー間で安定的に共有されるという観測に基づき、少数の「アンカーレイヤー」...

📄 MLSys 2025論文解説: LServe — 統一疎アテンションによる長文脈LLM推論の効率化

論文概要 本記事は LServe (arXiv 2502.14866) の解説記事です。LServeは、長文脈LLM推論におけるprefillおよびdecodeの両フェーズを統一的なブロックスパースアテンションで高速化するシステムである。静的スパーシティ(Streaming Head分類)と動的スパーシティ(クエリ依存ページ選択)を直交的に組み合わせることで、vLLMに対してprefill...

📄 論文解説: SparseServe — 動的疎アテンションの並列化による長文脈LLM推論高速化

論文概要 本記事は SparseServe (arXiv 2509.24626) の解説記事です。SparseServeは、長文脈LLM推論における動的疎アテンション(Dynamic Sparse Attention, DSA)のシステムレベルの課題を解決するサービングフレームワークである。DSAはアテンション計算量を削減するが、未使用のKVキャッシュがGPU HBM上に残留し並列処理を制...

✍️ Qdrant公式ブログ解説: Query APIで実現するサーバーサイドハイブリッド検索

ブログ概要(Summary) 本記事は Qdrant公式ブログ「Hybrid Search Revamped — Building with Qdrant’s Query API」 の解説記事です。 Qdrant社のKacper Łukawski氏が2024年7月に公開した本ブログ記事では、Qdrant 1.10で導入されたQuery APIを中心に、ハイブリッド検索をサーバーサイドで完...

📄 NeurIPS 2021論文解説: BEIR — 情報検索モデルのゼロショット汎化を18データセットで評価するベンチマーク

論文概要(Abstract) 本記事は BEIR: A Heterogeneous Benchmark for Zero-shot Evaluation of Information Retrieval Models(NeurIPS 2021 Dataset and Benchmark Track)の解説記事です。 著者らは、既存のニューラル情報検索(IR)モデルが均質で限定的な実験設定...

📄 論文解説: Balancing the Blend — ハイブリッド検索の効果・コスト・トレードオフを11データセットで実証分析

本記事は Balancing the Blend: An Experimental Analysis of Trade-offs in Hybrid Search の解説記事です。 論文概要(Abstract) ハイブリッド検索は、RAGパイプラインや情報検索システムにおいて検索精度を向上させる手法として広く採用されている。しかし、複数の検索パスを組み合わせることで生じる効果とコストのト...