最近の更新
paper 579
- 論文解説: Streaming, Fast and Slow — 認知負荷に応じたLLMストリーミング最適化 02/04/2026
- 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論 01/04/2026
- 論文解説: TextGrad — テキストによる自動微分フレームワーク 31/03/2026
- 論文解説: LSM-VEC — LSMツリー型動的ベクトルインデックスでFreshDiskANN比5倍の書き込みスループット 31/03/2026
- 論文解説: DSPy — 宣言的LM呼び出しを自己改善パイプラインにコンパイル 31/03/2026
- 論文解説: WAS — RRFを超えるハイブリッド検索スコアリング手法とインデックス最適化 31/03/2026
- 論文解説: SIMBA — バッチレベルビームサーチによるDSPyプログラムの推論時スケーリング 31/03/2026
- 論文解説: グラフ型ベクトル検索の包括的実験評価 — HNSW・DiskANN・RoarGraph・ACORNを同一条件で比較 31/03/2026
- 論文解説: MIPROv2 — ベイズ最適化による多段LLMプログラムの命令・デモ最適化 31/03/2026
- 論文解説: GEPA — リフレクティブなプロンプト進化で強化学習を超える 31/03/2026
- 論文解説: ACORN — フィルタ付きベクトル検索の精度を劇的に改善するグラフ探索アルゴリズム 31/03/2026
- 論文解説: SemanticCacheQA — LLMセマンティックキャッシュの効率と精度を評価するベンチマーク 30/03/2026
- 論文解説: Quantifying PII Leakage in LLMs — 三層PII分類とSILSメトリクスによるLLMプライバシーリスクの定量化 30/03/2026
- 論文解説: Defeating Prompt Injections by Design — CaMeLアーキテクチャによる設計レベルのプロンプトインジェクション防御 30/03/2026
- 論文解説: DeepSeek-V3 — MLA+MoE+FP8混合精度で671Bモデルを低コスト学習する技術詳細 29/03/2026
- ICCV 2019論文解説: Be Your Own Teacher — CNNにおける自己蒸留の先駆的研究 29/03/2026
- 論文解説: Methods of Improving LLM Training Stability — QK-NormからRMSNormまでの学習安定化技法 29/03/2026
- 論文解説: Self-RAG — 自己反省トークンによる適応的検索拡張生成 29/03/2026
- 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化 29/03/2026
- 論文解説: QLoRA — 4bit量子化とLoRAの組み合わせで65Bモデルを単一GPUでファインチューニング 29/03/2026
- WACV 2023論文解説: SDSSL — 中間層自己蒸留によるSelf-Supervised Learningの表現品質向上 29/03/2026
- 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化 29/03/2026
- 論文解説: GQA — Grouped-Query AttentionによるKVキャッシュ効率化とMHAからの変換手法 29/03/2026
- CVPR 2025論文解説: COSMOS — クロスモーダル自己蒸留によるVision-Language事前学習の改善 29/03/2026
- 論文解説: DINOv3 — Gram Anchoringによる密な特徴量の安定化と7Bパラメータ自己蒸留 29/03/2026
- 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する 29/03/2026
- 論文解説: Direct Preference Optimization (DPO) — 報酬モデル不要のLLMアライメント手法 29/03/2026
- 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装 29/03/2026
- 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化 29/03/2026
- 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLMサービングを高効率化 29/03/2026
- 論文解説: DINOv2 — ラベルなし自己教師あり学習で汎用視覚特徴量を獲得する大規模フレームワーク 29/03/2026
- 論文解説: Orca — Iteration-Level Schedulingによる生成モデルサービングの革新 29/03/2026
- 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク 28/03/2026
- ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク 28/03/2026
- ICML 2025論文解説: BFCL — Berkeley Function Calling Leaderboard 28/03/2026
- 論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク 28/03/2026
- 論文解説: Pick and Spin — セルフホスト型LLMのマルチモデルオーケストレーション 28/03/2026
- 論文解説: OneShield Privacy Guard — LLMプライバシーガードレールの実デプロイ比較分析 28/03/2026
- NeurIPS 2024論文解説: GTA — 実行可能ツールによる汎用ツールエージェントベンチマーク 28/03/2026
- 論文解説: SWE-agent — コーディングエージェントのためのインターフェース設計原則 28/03/2026
- 論文解説: LAAFD — LLMエージェントによるFPGA設計自動化フレームワーク 28/03/2026
- 論文解説: ChipNeMo — チップ設計ドメイン適応LLMの技術的詳細 28/03/2026
- 論文解説: LLMによるGPUカーネル自動生成サーベイ — SFT・RL・マルチエージェント手法の体系的整理 28/03/2026
- 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク 28/03/2026
- 論文解説: Reasoning Models Generate Societies of Thought — 推論モデル内部に自発的に創発する思考の社会 28/03/2026
- 論文解説: AgentTool — マルチエージェントワークフローにおけるツール選択評価ベンチマーク 28/03/2026
- 論文解説: A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler 28/03/2026
- ICLR 2025論文解説: RouteLLM — 人間の選好データを活用したLLMルーティングフレームワーク 28/03/2026
- 論文解説: Hardware Acceleration of LLMs — GPU・FPGA・ASIC・PIM横断サーベイ 27/03/2026
- 論文解説: Automated Design of Agentic Systems — エージェント設計そのものを自動化する 27/03/2026
- 論文解説: AIDE — ツリー探索によるML実験自動化エージェント 27/03/2026
- 論文解説: Agent Laboratory — LLMエージェントを研究アシスタントとして活用する 27/03/2026
- 論文解説: LUT-LLM — ルックアップテーブルによるFPGA上のLLM推論高速化 27/03/2026
- 論文解説: The AI Scientist — 完全自動オープンエンド科学的発見に向けて 27/03/2026
- 論文解説: FlightLLM — FPGAによるLLM推論の完全マッピングフロー 27/03/2026
- 論文解説: vLLM-MLX — Apple Silicon統合メモリを活かしたLLM推論の高速化 25/03/2026
- 論文解説: Mini-Omni — ストリーミング音声出力を実現する並列デコーディングLLM 25/03/2026
- NeurIPS 2024論文解説: MoE推論の効率化に向けた3つの最適化手法 25/03/2026
- 論文解説: FluxMem — Beta混合モデルによる適応的メモリ構造選択フレームワーク 25/03/2026
- 論文解説: HOBBIT — 混合精度エキスパートオフローディングによるMoE推論の高速化 25/03/2026
- 論文解説: Memori — セマンティックトリプルで実現する高精度・低コストLLMエージェント記憶層 25/03/2026
- 論文解説: MoEモデルのSSDオフロードはエネルギー効率で有害か 25/03/2026
- 論文解説: DeepSeekMoE — 細粒度エキスパート分割と共有エキスパートによるMoE効率化 25/03/2026
- 論文解説: A-MAC — 5因子構造化判定によるLLMエージェントの適応的メモリ入力制御 25/03/2026
- 論文解説: VITA-1.5 — GPT-4oレベルのリアルタイム映像×音声対話を7Bモデルで実現 25/03/2026
- 論文解説: Gated Delta Networks — Mamba2とDelta Ruleの融合による線形注意の革新 25/03/2026
- 論文解説: MoEオフロードによる大規模スパースモデルの高速推論 25/03/2026
- 論文解説: FlashMoE - SSD I/Oボトルネックを解消するML基盤キャッシュ置換によるMoEエッジ推論 25/03/2026
- 論文解説: Qwen3 Technical Report — MoEアーキテクチャとHybrid Thinkingの全容 25/03/2026
- 論文解説: Titans — 推論時ニューラルメモリ更新による200万トークン超の長期記憶 25/03/2026
- 論文解説: Moshi — 160msレイテンシを実現する全二重リアルタイム音声対話基盤モデル 25/03/2026
- 論文解説: SelfCheckGPT — 外部知識不要のLLM幻覚検出手法 24/03/2026
- 論文解説: MT-Bench — LLM-as-a-Judgeパラダイムの実証分析 24/03/2026
- 論文解説: RGB Benchmark — RAGに必要な4能力の体系的評価 24/03/2026
- ACL 2024論文解説: RAGTruth — RAGシステムの幻覚検出コーパスと評価手法 24/03/2026
- 論文解説: RAGAS — RAGパイプラインの自動評価フレームワーク 24/03/2026
- 論文解説: Adaptive Orchestration — マルチエージェントAIシステムの認知アーキテクチャ 23/03/2026
- 論文解説: FlowBench — LLMエージェントのワークフロー型別評価ベンチマーク 23/03/2026
- 論文解説: Tool-Augmented LLMs — 統合アーキテクチャと障害パターンのサーベイ 23/03/2026
- 論文解説: MCP-Zero — LLMエージェントのための動的ツール発見と推薦 23/03/2026
- IJCAI 2024論文解説: Large Language Model based Multi-Agents — LLMマルチエージェントの進展と課題の包括的サーベイ 22/03/2026
- NeurIPS 2023論文解説: Toolformer — 言語モデルが自らツール使用を学習する自己教師あり手法 22/03/2026
- ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を評価するベンチマーク 22/03/2026
- 論文解説: Multi-Agent Collaboration Mechanisms — LLMベースマルチエージェント協調メカニズムの体系的サーベイ 22/03/2026
- 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション構築フレームワーク 22/03/2026
- 論文解説: ARES — An Automated Evaluation Framework for Retrieval-Augmented Generation Systems 21/03/2026
- 論文解説: PALADIN — 障害事例バンクによるLLMエージェントのツール障害自己修正フレームワーク 21/03/2026
- ICLR 2025論文解説: MMTEB — Massive Multilingual Text Embedding Benchmark 21/03/2026
- 論文解説: Graph-Based Self-Healing Tool Routing — LLMエージェントのコスト効率を高めるグラフベース自己修復ルーティング 21/03/2026
- 論文解説: Beyond Benchmarks — Evaluating Embedding Model Similarity for RAG Systems 21/03/2026
- ICML 2024論文解説: LLMガードレールの体系的設計手法 21/03/2026
- 論文解説: FrugalGPT — LLMコスト98%削減のカスケード戦略 21/03/2026
- 論文解説: Llama Guard — LLMベース入出力ガードレールの設計と実装 21/03/2026
- 論文解説: Reflexion — 言語エージェントのための言語的強化学習フレームワーク 21/03/2026
- 論文解説: AgentPRM — プロセス報酬モデルによるLLMエージェントの段階的改善フレームワーク 21/03/2026
- 論文解説: RAGAS — Automated Evaluation of Retrieval Augmented Generation 21/03/2026
- 論文解説: Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing — LLMエージェントと従来型MASの融合による処方的保全 20/03/2026
- 論文解説: Why Do Multi-Agent LLM Systems Fail? — マルチエージェントLLMシステムの失敗分類学 20/03/2026
- 論文解説: FD-LLM — 振動センサーデータからの故障診断に特化したLLMフレームワーク 20/03/2026
- 論文解説: Flow-of-Action — SOPに基づくLLMマルチエージェント根本原因分析システム 20/03/2026
- 論文解説: Exploring LLM-based Frameworks for Fault Diagnosis — HVACシステムにおけるマルチLLM故障診断の実証的評価 20/03/2026
- 論文解説: Gemini Embedding — 250以上の言語に対応する汎用テキスト埋め込みモデル 20/03/2026
- 論文解説: CRAG — 検索品質を自己評価・修正するCorrective RAG 20/03/2026
- 論文解説: RAGAS — RAGシステムの自動評価フレームワーク 20/03/2026
- MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference 20/03/2026
- 論文解説: Adaptive-RAG — クエリ複雑度に基づく検索戦略の動的切り替えによるRAGコスト最適化 20/03/2026
- 論文解説: Curator — マルチテナント・ベクトルDBの効率的インデキシング 20/03/2026
- 論文解説: Recursively Summarizing Enables Long-Term Dialogue Memory in LLMs 20/03/2026
- 論文解説: FrugalGPT — 複数LLMのカスケード戦略によるコスト削減と精度向上 20/03/2026
- 論文解説: CacheBlend — RAGにおけるKVキャッシュ融合による高速LLM推論 20/03/2026
- 論文解説: Lance — 適応的構造エンコーディングによる列指向ストレージの高速ランダムアクセス 20/03/2026
- 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク 20/03/2026
- 論文解説: LiquidANN — 階層型ストレージによるコスト効率的ベクトル検索 20/03/2026
- 論文解説: Corrective Retrieval Augmented Generation (CRAG) — 検索品質評価とWeb検索フォールバックによるRAGの堅牢化 20/03/2026
- 論文解説: SWE-RL — 強化学習によるLLMのソフトウェアエンジニアリング推論能力の向上 20/03/2026
- 論文解説: SWE-bench Verified — LLMコーディングエージェント評価の業界標準ベンチマーク 20/03/2026
- 論文解説: OpenHands — An Open Platform for AI Software Agents 20/03/2026
- 論文解説: ChatDev — Communicative Agents for Software Development 20/03/2026
- 論文解説: Gemini 1.5 — 100万トークン長文脈理解を実現するMoEアーキテクチャ 20/03/2026
- 論文解説: LLMs Get Lost In Multi-Turn Conversation 20/03/2026
- 論文解説: Searching for Best Practices in Retrieval-Augmented Generation — RAGパイプライン最適構成の体系的探索 20/03/2026
- 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering 20/03/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 20/03/2026
- 論文解説: ToolBeHonest — ツール使用LLMの幻覚を多層的に診断するベンチマーク 18/03/2026
- 論文解説: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use 18/03/2026
- 論文解説: LLM Agents Making Agent Tools — 研究論文からツールを自動構築するToolMaker 18/03/2026
- 論文解説: ToolACE — LLM Function Calling訓練データの自動生成パイプライン 18/03/2026
- 論文解説: Efficient Tool Use with Chain-of-Abstraction Reasoning 18/03/2026
- NeurIPS 2024論文解説: AvaTaR - 対照推論によるLLMエージェントのツール利用最適化 17/03/2026
- 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻防を動的に評価するフレームワーク 17/03/2026
- NAACL 2025論文解説: Decision TokenとデータブレンドによるLLMのFunction Calling能力強化 17/03/2026
- 論文解説: InjecAgent — ツール統合LLMエージェントに対する間接プロンプトインジェクションのベンチマーク 17/03/2026
- 論文解説: Toolformer - 言語モデルが自律的にツール利用を学習する仕組み 17/03/2026
- 論文解説: ToolHijacker — LLMエージェントのツール選択に対するプロンプトインジェクション攻撃 17/03/2026
- 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論高速化 16/03/2026
- 論文解説: Fast Inference from Transformers via Speculative Decoding 16/03/2026
- 論文解説: Orca - Continuous Batchingで実現するLLM推論の高スループットサービング 16/03/2026
- 論文解説: Efficiently Programming Large Language Models using SGLang 16/03/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 16/03/2026
- 論文解説: Authenticated Delegation and Authorized AI Agents 15/03/2026
- OOPSLA 2024論文解説: Cedar - A New Language for Expressive, Fast, Safe, and Analyzable Authorization 15/03/2026
- 論文解説: Agentic AI for Enterprise - Multi-Agent Orchestration with Guardrails 15/03/2026
- 論文解説: Towards Model-Native Agentic AI — パイプライン型からモデルネイティブ型へのパラダイムシフト 14/03/2026
- 論文解説: Navigating MLOps — 統一ライフサイクルフレームワークとLLMOps統合 14/03/2026
- MRL 2024論文解説: Jina-ColBERT-v2 — 多言語Late Interactionリトリーバーの設計と最適化 14/03/2026
- ACL 2025論文解説: SetR — ランキングから集合選択へ、RAG検索のパラダイムシフト 14/03/2026
- ACL 2024論文解説: When is Tree Search Useful for LLM Planning? — 木探索の有効性条件 14/03/2026
- 論文解説: Agent Design Pattern Catalogue — 基盤モデルエージェントの18アーキテクチャパターン 14/03/2026
- 論文解説: Empowering Working Memory for LLM Agents — 作業記憶の動的管理 14/03/2026
- ICDE 2025論文解説: Compound AIシステムのBlueprint Architecture — エージェントとデータのオーケストレーション設計 14/03/2026
- 論文解説: RAGBench — 説明可能な4次元メトリクスによるRAGパイプライン評価ベンチマーク 14/03/2026
- EMNLP 2025論文解説: How Good are LLM-based Rerankers? — リランキングモデルの実証分析 14/03/2026
- 論文解説: Reflexion — 言語エージェントのための言語的強化学習 14/03/2026
- ICLR 2025論文解説: RouteLLM — 人間の嗜好データからLLMルーティングを学習する 14/03/2026
- 論文解説: Retrieval-Augmented Generation for Large Language Models — RAGパイプライン設計の体系的整理 14/03/2026
- 論文解説: Precise Zero-Shot Dense Retrieval without Relevance Labels (HyDE) 14/03/2026
- 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻撃・防御を動的に評価するフレームワーク 13/03/2026
- 論文解説: ToolNet — グラフ構造による大規模ツール管理でLLMエージェントのツール選択を効率化 13/03/2026
- 論文解説: Fast Inference from Transformers via Speculative Decoding — 投機的デコーディングの原論文 13/03/2026
- 論文解説: EAGLE-3 — 学習時テストスケーリングによるLLM投機的デコーディングの進化 13/03/2026
- 論文解説: Medusa — 複数デコーディングヘッドによるLLM推論高速化フレームワーク 13/03/2026
- 論文解説: EAGLE — Feature Uncertaintyの再考によるLLM投機的デコーディングの高速化 13/03/2026
- 論文解説: Moirai 2.0 — Decoder-Onlyアーキテクチャへの転換で実現した軽量・高速時系列FM 12/03/2026
- 論文解説: TARTE — セマンティック知識事前学習によるテーブル基盤モデル 12/03/2026
- 論文解説: PEGASUS — CKKSとTFHEを橋渡しするFHE非多項式関数評価手法 12/03/2026
- CIKM 2024論文解説: TopoGDN - トポロジカル解析によるグラフ注意ネットワーク強化型時系列異常検知 12/03/2026
- 論文解説: AnyGraph — Mixture-of-Expertsによる汎用グラフファウンデーションモデル 12/03/2026
- 論文解説: The Future of Fully Homomorphic Encryption — FHEの現状・課題・ロードマップ 12/03/2026
- 論文解説: GIFT-Eval — 時系列ファウンデーションモデルの包括的ベンチマーク 12/03/2026
- 論文解説: FedKSeed — ゼロ次最適化による勾配不要の連合LLMファインチューニング 12/03/2026
- 論文解説: CARTE — グラフ表現によるテーブルデータの事前学習と転移学習 12/03/2026
- 論文解説: Topological Deep Learning - グラフデータを超える新パラダイムのレビュー 12/03/2026
- 論文解説: TabArena — テーブルMLの初のLiving Benchmark 12/03/2026
- 論文解説: HetLoRA — 異種LoRA構成による通信効率的な連合LLMファインチューニング 12/03/2026
- NeurIPS 2024論文解説: Graphcode - 多パラメータパーシステントホモロジーとGNNの統合 12/03/2026
- ACL 2025論文解説: GNN-RAG — GNNの推論とLLMの言語理解を融合した知識グラフ質問応答 12/03/2026
- 論文解説: GFM-RAG — グラフファウンデーションモデルによるゼロショット検索拡張生成 12/03/2026
- 論文解説: TabICL v2 — オープンソースで高速なテーブルデータ基盤モデル 12/03/2026
- 論文解説: CAT — 非専門家向けGPU加速準同型暗号フレームワーク 12/03/2026
- 論文解説: Sundial — Flow-Matchingによる連続値時系列ファウンデーションモデル 12/03/2026
- 論文解説: FLoRA — LoRAアダプタは勾配圧縮器である 12/03/2026
- 論文解説: TopoX - トポロジカルドメイン上の機械学習Pythonパッケージ群 12/03/2026
- 論文解説: Hybrid LLM — Conformal Predictionによる品質保証付きLLMルーティング 12/03/2026
- 論文解説: FrugalGPT — LLM APIコストを最大98%削減するカスケード戦略 12/03/2026
- NAACL 2025論文解説: Attention Tracker — 訓練不要のプロンプトインジェクション検出 12/03/2026
- 論文解説: MeanCache — ユーザー中心セマンティックキャッシュによるLLMサービスコスト削減 12/03/2026
- 論文解説: Prompt Injection Attacks and Defenses in LLM-Integrated Applications 12/03/2026
- 論文解説: GraphBFF — 初のBillion-Scaleグラフファウンデーションモデルとニューラルスケーリング則 12/03/2026
- 論文解説: TabPFN v2 — テーブルデータのIn-Context Learning基盤モデル 12/03/2026
- 論文解説: TopInG - パーシステントホモロジーによるGNN解釈性の向上 12/03/2026
- 論文解説: OpenFedLLM — 分散プライベートデータによるLLMの連合学習フレームワーク 12/03/2026
- ICLR 2025論文解説: RouteLLM — 嗜好データを用いたLLMルーティングによるコスト効率的推論 12/03/2026
- ACL 2025論文解説: PIGuard — 過剰防御を抑制するプロンプトインジェクション検出 12/03/2026
- ICML 2025論文解説: EncryptedLLM — GPU加速FHEによるプライバシー保護LLM推論 12/03/2026
- 論文解説: LlamaFirewall — Metaが提案するLLMエージェント向けオープンソースガードレールシステム 11/03/2026
- 論文解説: 人間フィードバックによる動画生成の改善 - Flow-DPO/Flow-NRGの統合フレームワーク 11/03/2026
- 論文解説: VBench-2.0 - 動画生成モデルの認知・推論能力を評価する次世代ベンチマーク 11/03/2026
- NeurIPS 2024論文解説: Teach Better or Show Smarter? — 命令最適化 vs 例示最適化の体系的比較 11/03/2026
- 論文解説: GEPA — 反省的プロンプト進化が強化学習を超える(ICLR 2026 Oral) 11/03/2026
- 論文解説: Wan - 大規模オープンソース動画生成モデルのアーキテクチャと訓練 11/03/2026
- 論文解説: Prompt-A-Video - 選好整合LLMによる動画拡散モデルのプロンプト最適化 11/03/2026
- 論文解説: TextGrad — テキストによる自動微分でLLMパイプラインを最適化する 11/03/2026
- PLDI 2024論文解説: Cedar — 表現力・高速・安全・解析可能を両立した認可言語の設計と実装 11/03/2026
- 論文解説: VPO - プロンプト最適化によるText-to-Videoモデルのアラインメント 11/03/2026
- 論文解説: Agent-R — エピソード記憶を用いたリアルタイムリフレクションでLLMエージェントの誤り訂正を効率化する 11/03/2026
- 論文解説: DSPy — 宣言的LMパイプラインを自己改善コンパイラで最適化するフレームワーク 11/03/2026
- ICLR 2025論文解説: CogVideoX - Expert Transformerによるテキスト-動画拡散モデル 10/03/2026
- EMNLP 2025論文解説: GRPO-LEAD - 難易度考慮型GRPOによる簡潔な数学推論 10/03/2026
- 論文解説: HunyuanVideo - 13Bパラメータのオープンソース動画生成フレームワーク 10/03/2026
- 論文解説: LTX-2 - 音声と動画を同時生成する非対称デュアルストリームDiffusion Transformer 10/03/2026
- 論文解説: DAPO - 大規模GRPO学習の4つの失敗パターンとその解決策 10/03/2026
- NeurIPS 2025論文解説: FramePack - 定長コンテキスト圧縮による実用的動画拡散モデル 10/03/2026
- 論文解説: DeepSeek-R1 - 強化学習によるLLM推論能力の段階的獲得パイプライン 10/03/2026
- 論文解説: Wan - オープンな大規模動画生成モデル群 10/03/2026
- 論文解説: DeepSeekMath - Group Relative Policy Optimization(GRPO)による数学推論の限界突破 10/03/2026
- 論文解説: AutoMix - 追加学習不要の自己検証型LLMカスケードルーティング 09/03/2026
- 論文解説: AI駆動の自己修復ネットワーク制御プレーン — DRL+LLMハイブリッドアーキテクチャ 09/03/2026
- 論文解説: RAG vs ロングコンテキストLLMの包括的比較とSelf-Routeハイブリッド手法 09/03/2026
- 論文解説: Hybrid LLM - 品質保証付きコスト効率クエリルーティング 09/03/2026
- 論文解説: SELF-ROUTE — LLMの自己判定によるRAG/ロングコンテキスト動的ルーティング 09/03/2026
- 論文解説: Kubernetes環境における自律エージェントの会話型インターフェース 09/03/2026
- 論文解説: RouteLLM - 選好データを活用したLLMルーティングフレームワーク 09/03/2026
- 論文解説: EvoAgent — 継続的探索によるエージェント自己進化フレームワーク 09/03/2026
- 論文解説: LaRA — RAGとロングコンテキストLLMのベンチマーク比較(ICML 2025) 09/03/2026
- 論文解説: CacheBlend - RAG向けKVキャッシュ融合によるLLM推論高速化 08/03/2026
- 論文解説: MCP Safety Audit — MCPエコシステムのセキュリティ脅威分類とLLM脆弱性評価 08/03/2026
- 論文解説: ToolSandbox - LLMツール利用能力のステートフル評価ベンチマーク 08/03/2026
- 論文解説: Stateful Large Language Model Serving with Pensieve 08/03/2026
- 論文解説: LLM-Inference-Bench — マルチプラットフォームLLM推論ベンチマーク 08/03/2026
- 論文解説: A Survey of Agent Interoperability Protocols — MCP・ACP・A2A・ANPの比較分析 08/03/2026
- OSDI 2022論文解説: Orca - Iteration-Level SchedulingによるLLMサービング最適化 07/03/2026
- 論文解説: SGLang - RadixAttentionとZero-Overhead Schedulerによる高性能LLM推論 07/03/2026
- 論文解説: BatchLLM - 大規模バッチLLM推論のGlobal Prefix SharingとToken Batching最適化 07/03/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 07/03/2026
- 論文解説: 2025年初頭のAIが経験豊富なOSS開発者の生産性に与える影響のRCT測定 06/03/2026
- AAAI 2024論文解説: ExpeL - 経験学習によるLLMエージェントの自律的知識獲得 06/03/2026
- 論文解説: SPLADE-v3 - BM25を超える学習型スパース検索モデル 06/03/2026
- NeurIPS 2025論文解説: A-MEM - Zettelkasten方式によるLLMエージェントの動的メモリ管理 06/03/2026
- 論文解説: Codified Context — 大規模コードベースにおけるAIエージェント向けコンテキストインフラ 06/03/2026
- 論文解説: Generative Agents - エピソード記憶とリフレクションによる信頼性のある行動シミュレーション 06/03/2026
- 論文解説: BGE M3-Embedding - 1つのモデルでDense・Sparse・ColBERTハイブリッド検索を実現 06/03/2026
- 論文解説: Mem0 - 本番対応AIエージェントのためのスケーラブル長期記憶 06/03/2026
- 論文解説: DAT - Dynamic Alpha Tuning for Hybrid Retrieval in RAG 06/03/2026
- 論文解説: Evaluating AGENTS.md — リポジトリレベルコンテキストファイルはコーディングエージェントに有効か 06/03/2026
- 論文解説: AutoTool — グラフベースのツール遷移確率によるLLMエージェントの効率的ツール選択 05/03/2026
- 論文解説: Toolshed — RAG-Tool Fusionによる大規模ツール選択のスケーリング手法 05/03/2026
- 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュの最適設計 05/03/2026
- 論文解説: SemCache — LLM推論のためのセマンティックキャッシュの精度と粒度を改善する 05/03/2026
- EMNLP 2025論文解説: RouterEval — LLMルーティング戦略の包括的ベンチマーク 05/03/2026
- 論文解説: Agentic Plan Caching — LLMエージェントのコスト削減を実現するテスト時計画キャッシュ 05/03/2026
- 論文解説: 拡散言語モデルのサーベイ — 手法分類・課題・今後の研究方向 04/03/2026
- 論文解説: Diffusion Models in De Novo Drug Design — 創薬における拡散モデルの体系的レビュー 04/03/2026
- 論文解説: LLaDA-MoE — Sparse MoEと拡散言語モデルの初統合 04/03/2026
- ICLR 2025論文解説: ReMoE — ReLUルーティングによる完全微分可能なMoEアーキテクチャ 04/03/2026
- 論文解説: FlowDock — フローマッチングによるタンパク質-リガンドドッキングと結合親和性予測 04/03/2026
- 論文解説: Matryoshka Representation Learning — 可変次元埋め込みで検索コストを1/14に削減する 04/03/2026
- 論文解説: Mercury — 拡散ベースの超高速言語モデルの推論技術 04/03/2026
- 論文解説: Scaling LLM Test-Time Compute — 推論時間計算量の最適配分による性能向上 04/03/2026
- ICML 2025論文解説: GenMol — 離散拡散モデルによる汎用創薬分子生成フレームワーク 04/03/2026
- 論文解説: LLaDA 2.0 — 拡散言語モデルを100Bパラメータにスケーリングする技術 04/03/2026
- 論文解説: DeepSeekMoE — Fine-grained Expert SegmentationとShared Expert Isolationによるエキスパート特化の追求 04/03/2026
- ACL 2024論文解説: Improving Text Embeddings with Large Language Models — LLM合成データで埋め込みモデルを訓練する 04/03/2026
- 論文解説: AlphaFold3 — 拡散モデルによる生体分子複合体の構造予測 04/03/2026
- 論文解説: LLaDA — マスク拡散で実現する大規模言語モデルの新パラダイム 04/03/2026
- 論文解説: DeepSeek-V3 Technical Report — 671B MoEモデルの設計と効率的学習 04/03/2026
- 論文解説: GISTEmbed — ガイドモデルによるバッチ内偽ネガティブ除去でテキスト埋め込みを改善 04/03/2026
- 論文解説: ARES — IBM Researchによるエージェント型クラウドインシデント自動対応システム 03/03/2026
- 論文解説: Multi-Agent Self-Healing — 4層階層マルチエージェントによるクラウド自己修復システム 03/03/2026
- 論文解説: SRE-Agent — LLMマルチエージェントによるSREタスク自動化フレームワーク 03/03/2026
- NeurIPS 2019論文解説: DiskANN — 10億規模のベクトル検索を単一ノードで実現するSSD最適化アルゴリズム 02/03/2026
- 論文解説: Rethinking HNSW — HNSWの階層構造は本当に必要か? 02/03/2026
- NAACL 2025論文解説: Attention Tracker — アテンション解析によるプロンプトインジェクション検出 01/03/2026
- NAACL 2025論文解説: Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents 01/03/2026
- 論文解説: Prompt Injection Attacks and Defenses in LLM-Integrated Applications 01/03/2026
- 論文解説: SWE-RL — 強化学習によるLLMのソフトウェアエンジニアリング推論能力の強化 28/02/2026
- 論文解説: Agentless — エージェント不要のシンプルなパイプラインでSWE-benchを解く 28/02/2026
- 論文解説: Mistral-SPLADE — LLMのEcho EmbeddingでBEIRスパース検索SOTAを達成する手法 28/02/2026
- 論文解説: SPLADE v2 — 学習型スパース検索で転置インデックスにセマンティック拡張を導入する手法 28/02/2026
- 論文解説: HyDE — LLM生成の仮想ドキュメントでゼロショット検索精度を改善する手法 28/02/2026
- 論文解説: ColBERTv2 — Residual Compressionで実現する軽量Late Interaction検索 28/02/2026
- 論文解説: SWE-agent — Agent-Computer Interface設計がLLMエージェントのソフトウェアエンジニアリング性能を決める 28/02/2026
- 論文解説: Matryoshka Representation Learning — 可変次元Embeddingで検索コストを14倍削減する手法 28/02/2026
- NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法 27/02/2026
- 論文解説: Qwen2.5-Coder — 5.5兆トークンで学習したオープンソースコーディングLLMの設計と性能 27/02/2026
- 論文解説: PowerInfer — コンシューマGPUでLLM推論を最大11.69倍高速化するCPU-GPUハイブリッドエンジン 27/02/2026
- 論文解説: DeepSeek-V2 — MoEモデルのKVキャッシュを93.3%削減するMulti-head Latent Attention 27/02/2026
- 論文解説: Qwen3 Embedding — 3段階学習とモデルマージで実現した多言語テキスト埋め込み 24/02/2026
- 論文解説: AdaptiveRAG — クエリ複雑度分類器でRAG構成を動的適応し35%コスト削減 24/02/2026
- ACL 2024論文解説: ChunkAttention — プレフィックスKVキャッシュ共有によるマルチテナント推論高速化 24/02/2026
- NeurIPS 2024論文解説: SGLang — RadixAttentionとCompressed FSMによるLLM推論高速化 24/02/2026
- 論文解説: プロンプトキャッシュ戦略の体系的分析 — Claude/GPT-4/GeminiのAPIコスト60-80%削減 24/02/2026
- 論文解説: RAG-Gym — MDP定式化とプロセス監督によるAgentic RAG最適化 24/02/2026
- 論文解説: CodeAct — 実行可能コードでLLMエージェントの行動空間を統一する 24/02/2026
- SIGCOMM 2024論文解説: CacheGen — KVキャッシュ圧縮・ストリーミングによるLLM高速化 24/02/2026
- MLSys 2024 Best Paper解説: AWQ — 活性化ベース重み量子化でLLMを4bitに圧縮 24/02/2026
- ICML 2025論文解説: Flexible and Efficient Grammar-Constrained Decoding 24/02/2026
- サーベイ解説: Efficient Inference for Large Reasoning Models — 推論コスト制御の体系的分類 24/02/2026
- 論文解説: Lost in the Middle — LLMはロングコンテキストの中間情報を見落とす 24/02/2026
- NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現 24/02/2026
- 論文解説: SGLang — RadixAttentionによるKVキャッシュ自動共有 24/02/2026
- 論文解説: FrugalGPT — LLMカスケード・プロンプト適応・近似の3戦略で最大98%コスト削減 24/02/2026
- 論文解説: ReWOO — 観察を分離した効率的エージェント推論でトークン消費を大幅削減 24/02/2026
- 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ 24/02/2026
- 論文解説: XGrammar — 語彙分割とキャッシュによる高速構造化出力エンジン 24/02/2026
- 論文解説: The Instruction Hierarchy — LLMに命令の優先順位を学習させる 24/02/2026
- 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減 24/02/2026
- 論文解説: Adaptive-RAG — クエリ複雑度分類で検索戦略を動的に選択するRAGフレームワーク 24/02/2026
- MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論 24/02/2026
- ICML 2024論文解説: LATS — モンテカルロ木探索でLLMエージェントの推論・行動・計画を統合 24/02/2026
- SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 24/02/2026
- ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較 24/02/2026
- 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク 24/02/2026
- 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価 24/02/2026
- 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索 24/02/2026
- 論文解説: MARA — LangGraphベースのマルチエージェントRAGアーキテクチャ 24/02/2026
- 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク 24/02/2026
- 論文解説: Don't Do RAG — Cache-Augmented Generation(CAG)がRAGを置き換える条件 24/02/2026
- 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 24/02/2026
- NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント 24/02/2026
- 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク 23/02/2026
- EMNLP 2025論文解説: FaithJudge — 人間アノテーション活用のRAG忠実度ベンチマーク 23/02/2026
- 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析 23/02/2026
- 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較 23/02/2026
- 論文解説: CachedAttention — マルチターン会話のKVキャッシュ再利用でTTFT 2.8倍高速化 23/02/2026
- 論文解説: LLUMNIX — リクエストライブマイグレーションによるLLM推論の動的負荷分散 23/02/2026
- カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク 23/02/2026
- 論文解説: Towards Optimizing the Costs of LLM Usage — 品質予測とLP緩和によるLLMコスト40-90%削減 23/02/2026
- 論文解説: LLMによるノーコード開発の適性要因 — エンドユーザーIoTアプリケーション開発への適用 23/02/2026
- 論文解説: Text-to-SQL based QA on Product Catalogs — RAG vs SQL の定量比較 23/02/2026
- 論文解説: CHASE-SQL — マルチパス推論×DPO候補選択でBIRDベンチマーク73.0%を達成したText-to-SQL 23/02/2026
- 論文解説: RAGCache — RAG向けKVキャッシュでTTFTを最大4倍高速化 23/02/2026
- 論文解説: DistServe — Prefill/Decode分離によるGoodput最適化LLMサービング 23/02/2026
- 論文解説: CoALA — 認知アーキテクチャに基づくLLMエージェントのメモリ分類体系 23/02/2026
- 論文解説: ToolLLM — 16,000+ APIをマスターするLLMの学習フレームワーク 23/02/2026
- ICLR 2024論文解説: MiniLLM — 逆KLダイバージェンスによるLLMオンポリシー蒸留 23/02/2026
- SOSP 2023論文解説: vLLM — PagedAttentionによるKVキャッシュメモリ管理の革新 23/02/2026
- OSDI 2024論文解説: Sarathi-Serve — Chunked-Prefillsで実現するLLM推論のスループット・レイテンシ最適化 23/02/2026
- COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQLフレームワーク 23/02/2026
- サーベイ解説: A Survey of Vibe Coding with Large Language Models — 制約付きMDPによる形式化と5つの開発モデル 23/02/2026
- 論文解説: ROUTE — マルチタスクFTとエキスパートLLM協調でText-to-SQL精度76.4%を達成 23/02/2026
- 論文解説: Qwen2.5-VL — 動的解像度とMRoPEで実現するオープンソース最高性能VLM 23/02/2026
- 論文解説: StructRAG — 推論時ハイブリッド情報構造化によるRAGの知識集約的推論強化 23/02/2026
- 論文解説: DB-GPT — プライベートLLMによるSQL+エージェント統合データベース操作フレームワーク 23/02/2026
- 論文解説: Adaptive RAG — クエリ複雑度に基づく検索戦略の動的選択 23/02/2026
- ISCA 2025論文解説: RAGO — RAGサービングのシステムレベル性能最適化 23/02/2026
- NeurIPS 2024論文解説: Compact Language Models via Pruning and Knowledge Distillation (Minitron) 23/02/2026
- COLING 2025論文解説: MAC-SQL — Selector・Decomposer・Refinerによるマルチエージェント協調Text-to-SQL 23/02/2026
- EMNLP 2025論文解説: DecEx-RAG — MDPモデリングとプロセス監視でAgentic RAGを最適化 23/02/2026
- 論文解説: LLM4FaaS — LLMとFunction-as-a-Serviceで実現するノーコードアプリケーション開発 23/02/2026
- 論文解説: MMTEB — 250言語×500データセットに拡張された多言語テキスト埋め込みベンチマーク 23/02/2026
- 論文解説: HybridRAG — Knowledge Graph×ベクトル検索のRRF統合で金融QA精度を向上 23/02/2026
- 論文解説: JSONSchemaBench — 10K実世界スキーマによるLLM構造化出力ベンチマーク 23/02/2026
- サーベイ解説: Agentic RAG — 自律エージェント統合型検索拡張生成の体系的分類 23/02/2026
- 論文解説: Llumnix — ライブマイグレーションによるLLM推論の動的スケジューリング 23/02/2026
- 論文解説: RAGCache — 知識ツリー構造によるRAG推論のKVキャッシュ最適化 23/02/2026
- 論文解説: FrugalGPT — カスケード型LLMルーティングでコスト最大98%削減 23/02/2026
- NeurIPS 2024論文解説: HippoRAG — 海馬モデルに基づくLLMの長期記憶型RAGアーキテクチャ 23/02/2026
- CIDR 2025論文解説: AOP — DAGベース並列実行によるLLMパイプライン自動オーケストレーション 23/02/2026
- 論文解説: MemEngine — LLMエージェントメモリの統一モジュラーフレームワーク 23/02/2026
- 論文解説: Mem0 — ベクトルDB×グラフDBで実現するプロダクション向けLLMエージェント長期記憶 23/02/2026
- サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類 23/02/2026
- ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs — ルーティングとカスケードの統一的最適化 23/02/2026
- 論文解説: CHESS — コンテキスト認識型4段パイプラインでText-to-SQL精度73%を達成 23/02/2026
- 論文解説: Gemini 1.5 — 1000万トークンコンテキストで実現するマルチモーダル長文脈理解 23/02/2026
- 論文解説: Prompt Cache — モジュラーアテンション再利用によるLLM推論の低レイテンシ化 23/02/2026
- 論文解説: Efficient Guided Generation for Large Language Models — 有限状態機械による構造化出力の理論基盤 23/02/2026
- 論文解説: ALCE — LLMの引用付きテキスト生成を自動評価するベンチマーク 23/02/2026
- 論文解説: DIN-SQL — 分解型In-Context Learningで実現するText-to-SQL自己修正パイプライン 23/02/2026
- 論文解説: MTEB — 56データセット×8タスクでEmbeddingモデルを統一評価するベンチマーク 23/02/2026
- COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQL 23/02/2026
- ICLR 2025論文解説: CHASE-SQL — マルチパス推論と選好最適化によるText-to-SQL 23/02/2026
- 論文解説: Don't Break the Cache — LLMエージェントフレームワークのプロンプトキャッシュ効率を体系評価 23/02/2026
- 論文解説: Vibe Coding — AIとの対話によるプログラミングの実証分析 23/02/2026
- 論文解説: Agentic Retrieval-Augmented Generation — エージェント型RAGアーキテクチャの体系的分類 23/02/2026
- 論文解説: Ruri — 日本語汎用テキスト埋め込みモデル 23/02/2026
- 論文解説: RouteLLM — 選好データに基づくLLMルーティングでコスト85%削減 23/02/2026
- 論文解説: CHESS — RAGベーススキーマ選択でText-to-SQL精度73%を達成するパイプライン 23/02/2026
- 論文解説: PipeRAG — パイプライン並列化によるRAG高速化のアルゴリズム・システム協調設計 23/02/2026
- 論文解説: Gemini — ネイティブマルチモーダル基盤モデルのアーキテクチャと設計思想 23/02/2026
- 論文解説: MemGPT — OS仮想メモリ概念でLLMエージェントの長期記憶を実現する 23/02/2026
- 論文解説: Matryoshka Representation Learning — 可変次元埋め込みによる適応的表現学習 23/02/2026
- CIDR 2025論文解説: Text2SQL is Not Enough — TAGフレームワークによるDB×LLM推論の統合 23/02/2026
- NeurIPS 2025論文解説: A-MEM — Zettelkasten方式によるLLMエージェントの自律的メモリ管理 23/02/2026
- 論文解説: HELMET — 51モデルで検証する長コンテキストLLMの効果的な評価フレームワーク 22/02/2026
- 論文解説: LoCoBench-Agent — 長文コンテキストソフトウェア工学における対話型LLMエージェントベンチマーク 22/02/2026
- 論文解説: Optima — LLMベースマルチエージェントシステムの効果と効率を同時最適化するフレームワーク 22/02/2026
- 論文解説: LLM-based ACR — 14モデル×8データセットによる自動コードレビューの実証研究 22/02/2026
- 論文解説: Don't Break the Cache — プロンプトキャッシュのエージェントタスクにおける体系的評価 22/02/2026
- ICML 2025論文解説: RepoAudit — 自律型LLMエージェントによるリポジトリレベルコード監査 22/02/2026
- 論文解説: GraphRAG-FinQA — 知識グラフ×マルチエージェントチームによる金融質問応答 22/02/2026
- サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析 22/02/2026
- 論文解説: Nexus — ドメイン特化スーパーバイザーの専門化と階層集約によるマルチエージェントシステム 22/02/2026
- 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク 22/02/2026
- 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価 22/02/2026
- 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows 22/02/2026
- NeurIPS 2023論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 22/02/2026
- 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する 22/02/2026
- 論文解説: On the Design and Analysis of LLM-Based Algorithms — 自己修正・アンサンブル・外部検証の理論的分析 22/02/2026
- 論文解説: Think-on-Graph — LLMエージェントによる知識グラフ上のマルチホップ推論 22/02/2026
- 論文解説: Agent-R — MCTSベースの反復的自己訓練でLLMエージェントに自己反省能力を獲得させる 22/02/2026
- 論文解説: LightRAG — グラフ×ベクトルのデュアルレベル検索で軽量かつ高精度なRAGを実現 22/02/2026
- 論文解説: SWE-RL — オープンソースコード進化データによる強化学習でLLMコーディングエージェントを強化する 22/02/2026
- 論文解説: From Local to Global — GraphRAGによるクエリ指向要約の知識グラフアプローチ 22/02/2026
- 論文解説: HAC-Retrieval — 階層的Anti-CorruptionパイプラインによるロバストなRAG 22/02/2026
- 論文解説: CITER — Retriever-Reasoner-Criticマルチエージェントによる知識集約型タスクの協調的反復改善 22/02/2026
- 論文解説: Agentic RAG with Knowledge Graphs for Clinical Practice Guideline Retrieval 22/02/2026
- 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論 22/02/2026
- 論文解説: CacheBlend — 選択的KV再計算によるRAGサービングの高速化 22/02/2026
- ICLR 2025 Spotlight論文解説: TheAgentCompany — 実世界タスクでのLLMエージェントベンチマーク 22/02/2026
- 論文解説: LLMエージェント評価・ベンチマークの包括的サーベイ(KDD 2025) 22/02/2026
- 論文解説: Smart RAG — クエリ分解×知識源評価×適応生成でRAG精度を段階的に改善 22/02/2026
- 論文解説: Multi-Agent Collaboration Mechanisms — LLMマルチエージェント協調の分類体系と設計指針 22/02/2026
- 論文解説: MIO — 音声・テキスト・画像・動画を統一トークンで理解・生成する基盤モデル 22/02/2026
- 論文解説: CoRAG — Chain-of-Retrieval Augmented Generation 22/02/2026
- CVPR 2024論文解説: MMMU — 大規模マルチモーダル理解・推論ベンチマーク 22/02/2026
- 論文解説: OctoTools — DAG並列実行で推論時間47%削減の拡張可能なエージェントフレームワーク 22/02/2026
- 論文解説: MCTS-RAG — モンテカルロ木探索で小規模LMの検索拡張推論を飛躍的に強化 22/02/2026
- 論文解説: MindSearch — DAGベース並列検索エージェントによるマルチソース情報統合 22/02/2026
- 論文解説: Speculative RAG — 並列ドラフト生成によるRAG高速化と精度向上の同時達成 22/02/2026
- 論文解説: ARES — RAGシステムの自動評価フレームワーク 22/02/2026
- 論文解説: Chameleon — Mixed-Modal Early-Fusion Foundation Models 22/02/2026
- 論文解説: MCP-Zero — MCPエージェントのための能動的ツール発見フレームワーク 22/02/2026
- 論文解説: CoRAG — 反復的検索クエリ連鎖で知識集約型QAの精度を大幅向上 22/02/2026
- 論文解説: Semantic Caching for LLM-Driven RAG Systems — コスト効率の高いセマンティックキャッシュ戦略 22/02/2026
- ICLR 2025論文解説: JudgeBench --- LLM-as-Judgeの評価ベンチマーク 22/02/2026
- 論文解説: ARAGOG — RAGパイプライン構成の体系的評価フレームワーク 22/02/2026
- 論文解説: Gemini 1.5 — Sparse MoEで100万トークンコンテキストのマルチモーダル理解を実現 22/02/2026
- 論文解説: ARC Prize 2025 Technical Report — ARC-AGI-2ベンチマークの設計と汎用知能評価 22/02/2026
- 論文解説: MAESTRO — Multi-Agent Evaluation and Testing for Real-world Orchestration 22/02/2026
- 論文解説: When AIs Judge AIs — Agent-as-a-Judgeサーベイ 22/02/2026
- 論文解説: MCPBench — MCPサーバのレイテンシ・信頼性を体系的に評価するベンチマーク 22/02/2026
- サーベイ解説: Agentic RAG — エージェント型検索拡張生成の体系的分類と設計パターン 22/02/2026
- 論文解説: Agent-as-a-Judge — エージェントでエージェントを評価する 22/02/2026
- 論文解説: Qwen2-VL — 任意解像度の画像・動画を動的トークン化するVision-Language Model 22/02/2026
- 論文解説: RouterBench — LLMルーターの包括的ベンチマークによるマルチソースルーティング最適化 22/02/2026
- 論文解説: MMMU-Pro — マルチモーダル理解ベンチマークの堅牢化手法とOCRボトルネック 22/02/2026
- 論文解説: PyramidKV — KVキャッシュ12%でFull精度の99%を維持する動的圧縮手法 22/02/2026
- 論文解説: RAGCache — Retrieval-Augmented Generationのための効率的な知識キャッシュシステム 22/02/2026
- 論文解説: Gemini — ネイティブマルチモーダルモデルの設計と画像・音声・動画統合処理 22/02/2026
- 論文解説: FrugalGPT — 複数LLMカスケードによるコスト最大98%削減 22/02/2026
- 論文解説: Benchmarking Large Language Models for Vulnerability Detection — LLM脆弱性検出の定量評価 21/02/2026
- 論文解説: Not What You've Signed Up For — 間接プロンプトインジェクションの体系的脅威分析 21/02/2026
- 論文解説: Prompt Injection Attacks on Agentic Coding Assistants — 5製品の実証評価 21/02/2026
- 論文解説: WebArena — 812タスクの現実的Web環境で自律エージェントを評価する 21/02/2026
- 論文解説: Large Language Models are Zero-Shot Reasoners 21/02/2026
- 論文解説: A-RAG — 階層的検索インターフェースによるエージェントRAGのスケーリング 21/02/2026
- 論文解説: MLE-bench — 75のKaggleコンペでMLエンジニアリングエージェントを評価する 21/02/2026
- 論文解説: RAGLAB — RAGアルゴリズムの公平比較を実現するモジュラー研究フレームワーク 21/02/2026
- 論文解説: Searching for Best Practices in RAG — 1,400実験が示すマルチソースRAGパイプラインの最適解 21/02/2026
- 論文解説: Reasoning Language Models: A Blueprint — 推論言語モデル構築の体系的設計図 21/02/2026
- サーベイ解説: Agentic RAG — エージェント型検索拡張生成の体系的分類と実装フレームワーク 21/02/2026
- サーベイ解説: Towards Trustworthy RAG — RAGシステムの信頼性6次元フレームワーク 21/02/2026
- 論文解説: GAIA — 汎用AIアシスタントの実力を測る466タスクベンチマーク 21/02/2026
- 論文解説: Tree of Thoughts — LLMによる探索的問題解決フレームワーク 21/02/2026
- サーベイ解説: リランキングモデルの進化 — ヒューリスティクスからLLMまでの体系的分類 21/02/2026
- 論文解説: LLM4CR — RAGとイテレーティブリファインメントによるLLMベースコードレビュー自動化 21/02/2026
- 論文解説: τ-bench — ツール・エージェント・ユーザー三者間対話の信頼性ベンチマーク 21/02/2026
- 論文解説: RAGAS — 参照フリーRAGパイプライン自動評価フレームワーク 21/02/2026
- 論文解説: Self-Consistency Improves Chain of Thought Reasoning in Language Models 21/02/2026
- 論文解説: DeepRAG — MDP定式化による適応的検索判断でRAGの効率と精度を両立 21/02/2026
- NeurIPS 2024論文解説: RankRAG — コンテキストランキングとRAGを単一LLMで統合する 21/02/2026
- 論文解説: Self-RAG — 自己反省トークンによる適応的検索・生成・批評の統合フレームワーク 21/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を評価する 21/02/2026
- 論文解説: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 21/02/2026
- EMNLP 2024論文解説: CodeAgent — マルチエージェントLLMによる自律的コードレビューシステム 21/02/2026
- 論文解説: Multi-Document RAGにおけるBM25・Dense・Hybrid検索戦略の体系的比較 20/02/2026
- 論文解説: Chain-of-Retrieval Augmented Generation — 反復的クエリ再構成でマルチホップQAの精度を向上 20/02/2026
- 論文解説: Query Routing for Homogeneous Tools — 同種ツール間の軽量クエリルーティング手法 20/02/2026
- 論文解説: AdaptiveRAG — クエリ分類×適応的検索戦略でRAGの精度とコストを両立する 20/02/2026
- 論文解説: SRAG — マルチホップ質問応答のための構造化RAG 20/02/2026
- 論文解説: MASAI — モジュラーアーキテクチャによるソフトウェアエンジニアリングAIエージェント 20/02/2026
- 論文解説: RouteLLM — 人間選好データによるLLMコスト最適化ルーティング 20/02/2026
- 論文解説: RULER — Needle-in-a-Haystackの先にあるロングコンテキストLLM評価の決定版 20/02/2026
- SIGIR 2009論文解説: Reciprocal Rank Fusion — ハイブリッド検索の基盤となったランク統合手法の原論文 20/02/2026
- 論文解説: One Router, Many Models — Cross-Attentionによるコスト考慮型LLMルーティング 20/02/2026
- 論文解説: Agentic AI Systems in Financial Services — マルチエージェントLLMの信頼性設計パターン 20/02/2026
- 論文解説: TTT-E2E — テスト時学習でロングコンテキストLLMのメモリ・速度限界を突破する 20/02/2026
- 論文解説: Strategic and Selective Mixtures — LLMルーティングとカスケードの実装判断ガイド 20/02/2026
- 論文解説: Routing to the Expert — 報酬モデルガイドによるLLMアンサンブルルーティング 20/02/2026
- 論文解説: Blended RAG — セマンティック検索×BM25×メタデータフィルタリングで検索精度84.6%を達成 20/02/2026
- EMNLP 2023論文解説: Query Rewriting for Retrieval-Augmented Large Language Models 20/02/2026
- NeurIPS 2024論文解説: Found in the Middle — Ms-PoEでLost in the Middle問題を解決する 20/02/2026
- 論文解説: SWE-agent — エージェント・コンピュータインターフェースによる自動バグ修正 20/02/2026
- 論文解説: RAG-Fusion — マルチクエリ生成×RRFでRAG検索の網羅性を向上させる手法 20/02/2026
- 論文解説: A Systematic Review of Reliability Frameworks for Production LLM Systems 20/02/2026
- 論文解説: Mixture-of-Agents — 複数LLMの協調で単体GPT-4oを超える品質を実現 20/02/2026
- 論文解説: Corrective Retrieval Augmented Generation (CRAG) 20/02/2026
- 論文解説: MetaGPT — SOP駆動マルチエージェント協調フレームワーク 20/02/2026
- 論文解説: Lost in the Middle — LLMはロングコンテキストをどう使うか 20/02/2026
- 論文解説: An Analysis of Fusion Functions for Hybrid Retrieval — RRF vs 線形結合 vs Learning to Rank の体系的比較 20/02/2026
- ACL 2025論文解説: MAIN-RAG — マルチエージェント協調フィルタリングでRAGの検索ノイズを解消する 19/02/2026
- 論文解説: LightRAG — デュアルレベル検索とインクリメンタル更新で実現する軽量グラフRAG 19/02/2026
- 論文解説: GraphRAG — ナレッジグラフとコミュニティ構造でRAGをグローバルに拡張する 19/02/2026
- 論文解説: Agentic RAG — 自律エージェントによる検索拡張生成の包括的サーベイ 19/02/2026
- 論文解説: Muon + MLA + MoE — 3技術統合で68%メモリ削減・3.2倍推論高速化を実現 19/02/2026
- 論文解説: MegaScale-MoE — 1,440 GPU上で1.88倍高速化を実現するMoE学習システム 19/02/2026
- 論文解説: DeepSeekMath — GRPOによるLLM数学推論の限界突破 19/02/2026
- 論文解説: Kimi K2 — 1兆パラメータMoE+MuonClipで実現するオープンエージェント知能 19/02/2026
- 論文解説: Muon is Scalable for LLM Training — Newton-Schulz直交化による2倍効率のオプティマイザ 19/02/2026
- 論文解説: JOrthoBench — 日本語表記ゆれによるLLM評価の盲点を暴く 19/02/2026
- 論文解説: MetaLLM — Multi-Armed Banditによるコスト効率最適のLLMルーティングフレームワーク 19/02/2026
- 論文解説: DeepSeek-V3 Technical Report — 671B MoEモデルの革新的アーキテクチャと$560万学習の全貌 19/02/2026
- 論文解説: AutoMix — 自己検証とPOMDPによるLLM自動カスケードルーティング 19/02/2026
- 論文解説: RouterBench — LLMルーター評価のための標準ベンチマーク 19/02/2026
- 論文解説: Distil-Whisper — 大規模擬似ラベリングによるWhisperの知識蒸留 19/02/2026
- ICLR 2024論文解説: Hybrid LLM — クエリ難易度予測によるコスト効率的なLLMルーティング 19/02/2026
- 論文解説: DiskANN — スケーラブルで高速なフィルタ付き近似最近傍探索 19/02/2026
- 論文解説: PromptEval — プロンプトエンジニアリングの「何が重要か」を定量評価するフレームワーク 19/02/2026
- 論文解説: FrugalGPT — LLMカスケードで最大98%コスト削減を実現する合成フレームワーク 19/02/2026
- ICASSP 2024論文解説: Matcha-TTS — Conditional Flow Matchingによる高速音声合成 19/02/2026
- 論文解説: Evaluation-Driven Development and Operations(EDD)— LLMエージェントのライフサイクル評価統合パラダイム 19/02/2026
- 論文解説: pgvectorscale — PostgreSQLをAIアプリケーション向けにスケールさせる拡張 19/02/2026
- ICLR 2025論文解説: RouteLLM — 選好データで学習するLLMルーティングフレームワーク 19/02/2026
- 論文解説: Moonshine — エッジデバイス向けリアルタイム音声認識モデル 19/02/2026
- 論文解説: When Better Prompts Hurt — 評価駆動プロンプト開発(EDPD)フレームワーク 19/02/2026
- 論文解説: Survey of Vector Database Management Systems 19/02/2026
- 論文解説: TextGrad — テキスト自動微分によるLLMパイプライン最適化フレームワーク 18/02/2026
- 論文解説: OPRO — LLMをプロンプト最適化器として活用するフレームワーク 18/02/2026
- 論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 18/02/2026
- 論文解説: DSPy — 宣言的LMパイプラインを自動コンパイルするフレームワーク 18/02/2026
- 論文解説: Qwen3 Technical Report — 4段階学習パイプラインとMoEアーキテクチャの全体像 18/02/2026
- 論文解説: Transformers are SSMs — Mamba-2とStructured State Space Dualityの理論 18/02/2026
- NeurIPS 2025 Best Paper解説: Gated Attention — Sigmoidゲートが実現する非線形・スパース・Attention-Sink-Freeなアテンション 18/02/2026
- 論文解説: Gated Delta Networks — Mamba2にデルタルールを統合した線形アテンションの革新 18/02/2026
- 論文解説: Progressive Rollout Strategies for LLM Updates — カナリア・ブルーグリーン・シャドウの段階的ロールアウト戦略 18/02/2026
- 論文解説: Lost in the Middle — LLMが長文コンテキストの中間を無視するU字型性能曲線の発見 18/02/2026
- 論文解説: ACON — 自然言語ガイドライン最適化による長期LLMエージェントのコンテキスト圧縮 18/02/2026
- 論文解説: LLMエージェントのメモリ機構サーベイ — 記憶の源泉・形式・操作の統一的分類 18/02/2026
- 論文解説: MemGPT — OS仮想メモリをLLMに適用し無限コンテキストを実現するアーキテクチャ 18/02/2026
- 論文解説: PromptOps — プロダクション向けプロンプトバージョニングとライフサイクル管理 18/02/2026
- 論文解説: LLMLingua-2 — GPT-4蒸留によるタスク非依存プロンプト圧縮で3-6倍高速化 18/02/2026
- 論文解説: Quality Gates in LLM Development — 評価からデプロイまでの品質ゲート体系 18/02/2026
- 論文解説: NoLiMa — 非リテラルマッチングで暴くLLM長文理解の真の限界 18/02/2026
- 論文解説: State of What Art? — マルチプロンプトLLM評価の必要性 18/02/2026
- 論文解説: The Complexity Trap — Observation MaskingはLLM要約と同等以上のコンテキスト管理効率を実現する 18/02/2026
- 論文解説: Chatbot Arena — 人間の選好投票によるLLM評価プラットフォーム 18/02/2026
- 論文解説: Sarathi — Chunked PrefillとDecode Piggybackingで推論レイテンシを最大74%削減 17/02/2026
- 論文解説: SGLang — RadixAttentionによるKVキャッシュ再利用で構造化LLMプログラムを最大5倍高速化 17/02/2026
- 論文解説: Prompt Cache — モジュラーKVキャッシュ再利用でLLM推論TTFTを3.5倍高速化 17/02/2026
- 論文解説: Orca — イテレーションレベルスケジューリングでLLM推論スループットを36.9倍に 17/02/2026
- 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLM推論スループットを最大4倍に 17/02/2026
- NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク 17/02/2026
- 論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード 17/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026
- COLING 2025論文解説: Benchmark Self-Evolving — マルチエージェントによる動的LLM評価フレームワーク 17/02/2026
- 論文解説: LLMの完全バイナリ化に挑む — W(1+1)A(1×4)ポストトレーニング量子化の技術詳細 17/02/2026
- NeurIPS 2024論文解説: LLM-Check — LLMのHallucination検出手法の体系的評価 17/02/2026
- NeurIPS 2025論文解説: Multi-Agent Collaboration via Evolving Orchestration — 強化学習で進化する操り人形師パラダイム 17/02/2026
- 論文解説: TENET — 三値LLM推論を21倍効率化するスパース対応LUTアーキテクチャ 17/02/2026
- 論文解説: PromptBench — LLM評価を統一するベンチマークライブラリの設計と実装 17/02/2026
- 論文解説: Llama Guard — LLMベースの入出力セーフガードモデル 17/02/2026
- 論文解説: Continual Quantization-Aware Pre-Training — 16-bitから1.58-bitへの最適移行戦略 17/02/2026
- 論文解説: NeMo Guardrails - プログラマブルなLLM安全性制御フレームワーク 17/02/2026
- 論文解説: Mixture-of-Agents — 複数LLMの階層的協調で単体GPT-4oを超える 17/02/2026
- 論文解説: HaloScope — ラベルなしLLM生成文からのHallucination検出 17/02/2026
- 論文解説: 1-bit AI Infra — BitNet b1.58のCPU推論を最大6.17倍高速化するオープンソース基盤 17/02/2026
- 論文解説: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits 17/02/2026
- 論文解説: MAGNNET - GNNとPPOによるマルチエージェント分散タスク割り当て 16/02/2026
- 論文解説: ReAct - Synergizing Reasoning and Acting in Language Models 16/02/2026
- 論文解説: プロンプト圧縮でトークン数40-60%削減: 文レベル符号化による高速LLM推論 15/02/2026
- 論文解説: LLMサービング性能ベンチマーク: レイテンシ・スループット・コスト最適化の徹底比較 15/02/2026
- 論文解説: LLM生成パラメータのコスト最適化: ベイズ最適化で20-40%削減 15/02/2026
- 論文解説: Beyond ChatGPT: 50社以上の本番LLMデプロイ実態調査とコスト構造分析 15/02/2026
- 論文解説: Infinite-LLM: 分散KVキャッシュで100万トークンのコンテキストを低コストで処理 15/02/2026
- 論文解説: AI-Nativeソフトウェア開発ライフサイクルとV-Bounceモデル 15/02/2026
- 論文解説: LLMベースのコード生成エージェント完全サーベイ 15/02/2026
- HyPA-RAG: ハイブリッド検索のパラメータ適応最適化 15/02/2026
- カンファレンス論文解説: AvaTaR - LLMエージェントのツール使用最適化 15/02/2026
- 論文解説: Infini-attention - 無限長コンテキストを実現する圧縮メモリ機構 15/02/2026
- FAISS完全ガイド: 大規模ベクトル検索の実装と最適化 15/02/2026
- 論文解説: SE 3.0 - AI-Nativeソフトウェア工学の新パラダイム 15/02/2026
- RAGアーキテクチャと堅牢性: 設計空間の全体像 15/02/2026
- RAG完全サーベイ: 基礎から最先端まで進化の全体像 15/02/2026
- 論文解説: Large Language Models as Optimizers(OPRO) 15/02/2026
- 論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク 15/02/2026
- 論文解説: Hallucination Detection and Mitigation - LLMハルシネーションの多面的検出と緩和戦略 14/02/2026
- 論文解説: STED and Consistency Scoring - LLM構造化出力の信頼性評価フレームワーク 14/02/2026
- EMNLP 2024論文解説: MiniCheck - 高速・高精度なLLMファクトチェック 14/02/2026
- NeurIPS 2024論文解説: HaloScope - 未ラベルLLM生成データを活用したハルシネーション検出 14/02/2026