Home
0h-n0 TechBLog
キャンセル

📄 論文解説: JourneyBench — SOPグラフに基づくマルチターンCSエージェント評価フレームワーク

本記事は arXiv:2601.00596 の解説記事です。 論文概要(Abstract) Sumanth Balaji, Piyush Mishra, Aashraya Sachdeva, Suraj Agrawalらによる本論文は、カスタマーサポート(CS)エージェントのマルチターン対話能力を評価するベンチマーク「JourneyBench」を提案している。著者らは、既存のCSベンチマ...

📄 論文解説: Synapse — Spreading Activationによるエピソード-セマンティック記憶統合アーキテクチャ

本記事は arXiv:2601.02744 の解説記事です。 論文概要(Abstract) Hanqi Jiang ら11名による本論文は、LLMエージェントのエピソード記憶とセマンティック記憶を動的グラフ上のSpreading Activationメカニズムで統合するアーキテクチャ「Synapse」を提案している。著者らは「a unified memory architecture t...

✍️ Mem0解説: State of AI Agent Memory 2026 — ベンチマーク・アーキテクチャ・本番運用の課題

本記事は Mem0 State of AI Agent Memory 2026 の解説記事です。 ブログ概要(Summary) Mem0が2026年4月に公開した本レポートは、AIエージェントの記憶管理における現状を、ベンチマーク結果・アーキテクチャ設計・本番運用の3つの観点から分析したものである。Mem0の最新アルゴリズム(2026年4月版)は、LoCoMoベンチマークで92.5、Lo...

📄 論文解説: Graph-based Agent Memory — LLMエージェント記憶のグラフベース設計体系

本記事は arXiv:2602.05665 の解説記事です。 論文概要(Abstract) Chang Yang ら18名による本サーベイは、LLMベースエージェントのメモリをグラフ構造で管理する手法を包括的に整理した研究である。著者らは「Memory emerges as the core module in LLM-based agents for long-horizon comp...

📄 論文解説: Qwen2.5-1M — 100万トークンコンテキストを実現する長文脈LLMの設計と推論最適化

論文概要 本記事は Qwen2.5-1M Technical Report (arXiv 2501.15383) の解説記事です。 Qwen2.5-1Mは、Alibaba Qwen Teamが開発した100万トークンのコンテキスト長を処理可能な大規模言語モデルである。長文データ合成・段階的事前学習・マルチステージSFTによる学習パイプラインと、Dual Chunk Attention(D...

📄 論文解説: Kascade — レイヤー間スパーシティ再利用による実用的長文脈LLM推論高速化

論文概要 本記事は Kascade (arXiv 2512.16391) の解説記事です。 Kascadeは、長文脈LLM推論におけるアテンション計算のレイテンシを削減するための、訓練不要(training-free)な疎アテンション手法である。著者らは、post-softmaxアテンション分布の高重みキーが隣接レイヤー間で安定的に共有されるという観測に基づき、少数の「アンカーレイヤー」...

📄 MLSys 2025論文解説: LServe — 統一疎アテンションによる長文脈LLM推論の効率化

論文概要 本記事は LServe (arXiv 2502.14866) の解説記事です。LServeは、長文脈LLM推論におけるprefillおよびdecodeの両フェーズを統一的なブロックスパースアテンションで高速化するシステムである。静的スパーシティ(Streaming Head分類)と動的スパーシティ(クエリ依存ページ選択)を直交的に組み合わせることで、vLLMに対してprefill...

📄 論文解説: SparseServe — 動的疎アテンションの並列化による長文脈LLM推論高速化

論文概要 本記事は SparseServe (arXiv 2509.24626) の解説記事です。SparseServeは、長文脈LLM推論における動的疎アテンション(Dynamic Sparse Attention, DSA)のシステムレベルの課題を解決するサービングフレームワークである。DSAはアテンション計算量を削減するが、未使用のKVキャッシュがGPU HBM上に残留し並列処理を制...