Home
0h-n0 TechBLog
キャンセル

📄 論文解説: ReST-RAG — プロセス監督MCTSによるRAG自己学習

論文概要(Abstract) 本記事は ReST-RAG (arXiv:2505.07900) の解説記事です。 ReST-RAGは、Monte Carlo Tree Search(MCTS)とProcess Reward Model(PRM)を組み合わせて高品質な検索拡張生成(RAG)の訓練軌跡を自動的に生成し、SFT(Supervised Fine-Tuning)とGRPO(Grou...

📄 論文解説: OmegaPRM — 分割統治MCTSによる自動プロセス監督

本記事は OmegaPRM (arXiv:2406.06592) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)の数学的推論において、中間ステップの正誤を評価するプロセス監督(Process Supervision)は有効だが、アノテーション収集のコストが課題であった。Luo et al. は、分割統治型の Monte Carlo Tree Search(MC...

📄 論文解説: Search-R1 — 強化学習による検索エンジン活用型LLM推論

本記事は Search-R1 (arXiv:2503.09516) の解説記事です。 論文概要(Abstract) Search-R1は、LLMが推論中に自律的に検索クエリを生成し、検索エンジンから得た情報を活用してステップバイステップで回答を構築する強化学習(RL)フレームワークである。従来のRAG(Retrieval-Augmented Generation)が固定的な検索パイプライ...

📄 論文解説: Let's Verify Step by Step — プロセス監督による数学的推論の改善

本記事は Let’s Verify Step by Step (arXiv:2305.20050) の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)の数学的推論能力を向上させるために、推論プロセスに対するフィードバック手法を比較した研究である。著者らは、最終回答の正誤のみを評価するOutcome supervision(結果監督)と、各推論ステップを個別に評価す...

✍️ Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding

本記事は SWE-Bench Pro: Raising the Bar for Agentic Coding (Scale AI Blog, 2025年9月19日) の解説記事です。 ブログ概要(Summary) 2025年9月19日、Scale AI Research Teamは、コーディングエージェント評価のための新ベンチマーク「SWE-Bench Pro」を発表した。Scale A...

📄 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks

本記事は Measuring Leakage in LLM-based Code Generation Benchmarks (arXiv:2503.01960) の解説記事です。 論文概要(Abstract) 著者ら(Piotr Szymanski, Piotr Nawrot, Maciej Namysl)は、LLMベースのコード生成ベンチマークにおけるデータリーケージ(データ汚染)を...