📄 論文解説: AlphaZero着想のMCTS反復選好学習でLLM推論を強化

論文概要（Abstract）本記事は Monte Carlo Tree Search Boosts Reasoning via Iterative Preference Learning の解説記事です。著者らは、AlphaZeroの自己対戦学習に着想を得て、Monte Carlo Tree Search（MCTS）によりステップレベルの選好データを生成し、Direct Prefer...

25/05/2026 blog paper

MCTS DPO preference-learning +2

📄 論文解説: Tree Search for Language Model Agents — 推論時探索でWebエージェント性能を39.7%改善

論文概要（Abstract）本記事は Tree Search for Language Model Agents（ICLR 2025採択）の解説記事です。言語モデル（LM）を用いた自律エージェントは、Web自動操作などの意思決定タスクで有望な成果を示している。しかし、LMは自然言語の理解・生成に最適化されており、多段階の推論・計画・環境フィードバックの活用に課題を抱えている。著者らは...

25/05/2026 blog paper

tree-search LLM-agent web-navigation +2

📄 NeurIPS 2024論文解説: ReST-MCTS* — プロセス報酬ガイド付きツリー探索によるLLM自己学習

論文概要（Abstract）本記事は ReST-MCTS* の解説記事です。 ReST-MCTSは、プロセス報酬モデル（PRM）とMonte Carlo Tree Search（MCTS）を統合し、LLMの推論トレースを自動的に生成・選別して自己学習を行うフレームワークです。従来の自己学習手法（ReST-EMなど）が最終回答の正誤のみでフィルタリングしていたのに対し、ReST-MCTS...

25/05/2026 blog paper

MCTS process-reward self-training +2

📄 論文解説: MCTSr — MCTS自己洗練でLLaMA-3 8BがGPT-4数学レベルに到達

本記事は MCTSr論文 (arXiv:2406.07394) の解説記事です。論文概要（Abstract） MCT Self-Refine（MCTSr）は、Monte Carlo Tree Search（MCTS）とLLMの自己洗練（Self-Refine）を統合し、数学的推論の性能を向上させるアルゴリズムである。著者らはLLaMA-3 8BにMCTSrを適用し、GSM8Kで96.6...

25/05/2026 blog paper

MCTS self-refine LLaMA +2

📄 論文解説: Everything of Thoughts (XoT) — RL+MCTSで思考生成の性能・効率・柔軟性を同時達成

本記事は Everything of Thoughts (XoT) の解説記事です。論文概要（Abstract） Ding, Zhang, Wang et al. (2023) は、LLMの思考生成において「性能（Performance）」「効率（Efficiency）」「柔軟性（Flexibility）」の3要素を同時に達成するフレームワーク XoT（Everything of Th...

25/05/2026 blog paper

MCTS reinforcement-learning tree-of-thoughts +2

📄 論文解説: PyramidKV — ピラミッド型情報漏斗に基づく動的KVキャッシュ圧縮

論文概要（Abstract） LLMの推論時にメモリを大量に消費するKVキャッシュを、Attention分布の層間パターンに基づいて動的に圧縮する手法 PyramidKV を提案した論文です。著者らは、Transformerの低い層ではAttentionが広く分散し、高い層では少数の重要トークンに集中するという「Pyramidal Information Funneling（ピラミッド型情...

24/05/2026 blog paper

kv-cache compression attention-pattern +2

📄 ICLR 2025論文解説: SqueezeAttention — 層×トークンの2D管理でKVキャッシュを最適圧縮

論文概要（Abstract） SqueezeAttentionは、LLM推論時のKVキャッシュを層方向（layer-wise）とトークン方向（sequence-wise）の2次元で管理する手法である。従来のKVキャッシュ圧縮手法がすべてのAttention層に一律のバジェットを割り当てていたのに対し、著者らはコサイン類似度による層重要度測定に基づいて各層に異なるKVバジェットを配分する。著...

24/05/2026 blog paper

kv-cache attention llm-inference +2

📄 SIGCOMM 2024論文解説: CacheGen — KVキャッシュ圧縮・ストリーミングによるLLM高速サービング

論文概要（Abstract） CacheGenは、LLMの長いコンテキストを処理する際のKVキャッシュ転送を高速化するシステムである。KVキャッシュの再利用によりコンテキスト処理遅延を削減できるが、大きなKVテンソルをネットワーク越しにフェッチすると高い転送遅延が発生する。CacheGenは、KVキャッシュのチャネル・層ごとの分布特性を活用したカスタムテンソルエンコーダにより、KVキャッシ...

24/05/2026 blog paper

kv-cache compression llm-serving +2

📄 SOSP 2023論文解説: PagedAttention — OS仮想メモリに学ぶLLM推論のKVキャッシュ管理

論文概要本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention（SOSP 2023）の解説記事です。 LLMの推論サービングでは、リクエストごとに巨大なKVキャッシュが必要となり、そのサイズは動的に変化する。従来のシステムではメモリの断片化や重複確保により、バッチサイズが...

24/05/2026 blog paper

kv-cache vllm paged-attention +2

📄 MLSys 2024論文解説: Prompt Cache — モジュール式Attentionステート再利用による低レイテンシLLM推論

論文概要本記事は Prompt Cache: Modular Attention Reuse for Low-Latency Inference（MLSys 2024）の解説記事です。著者らは、LLMの推論においてプロンプト間で共通するテキストセグメント（システムメッセージ、プロンプトテンプレート、コンテキスト文書など）のAttentionステート（KVキャッシュ）を事前計算・保存し...

24/05/2026 blog paper

prompt-caching kv-cache llm-inference +2

1
...
27
28
29
...
147
28 / 147