最近の更新
LLM 667
- 論文解説: HalluDetect — 法務ドメインにおけるLLMハルシネーションの検出・緩和・ベンチマーク 29/06/2026
- 論文解説: JSONSchemaBench — LLM構造化出力の体系的ベンチマーク 29/06/2026
- 論文解説: ContractEval — LLMによる契約書条項レベルリスク特定ベンチマーク 29/06/2026
- テックブログ解説: Gemini 3.5 Flash — 高速推論とThinking Modeの設計思想 26/06/2026
- 論文解説: Synapse — Spreading Activationによるエピソード-セマンティック記憶統合アーキテクチャ 26/06/2026
- Mem0解説: State of AI Agent Memory 2026 — ベンチマーク・アーキテクチャ・本番運用の課題 26/06/2026
- 論文解説: Graph-based Agent Memory — LLMエージェント記憶のグラフベース設計体系 26/06/2026
- 論文解説: ConvKV — マルチターン会話のコスト効率的KVキャッシュ管理 19/06/2026
- AWS公式ブログ解説: LLMレスポンスコストとレイテンシの効果的なキャッシュ最適化 19/06/2026
- 論文解説: SGLang — RadixAttentionによる自動KVキャッシュ再利用 19/06/2026
- SOSP 2023論文解説: vLLM — PagedAttentionによるLLMサービングのメモリ効率化 19/06/2026
- 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論 19/06/2026
- 論文解説: DPBench — 食事する哲学者問題で測るマルチエージェントLLMの協調限界 18/06/2026
- 論文解説: From Spark to Fire — Error Cascades and Failure Attribution in Multi-Agent Systems 18/06/2026
- 論文解説: Which Agent Causes Task Failures and When? — マルチエージェントLLMの自動障害帰属 18/06/2026
- OpenTelemetry公式ブログ解説: Inside the LLM Call — GenAI Observability with OpenTelemetry 17/06/2026
- 論文解説: AI Observability for Large Language Model Systems 17/06/2026
- 論文解説: Don't Break the Cache - プロンプトキャッシュの実践的評価 16/06/2026
- EMNLP 2023論文解説: LLMLingua - プロンプト圧縮で最大20倍のトークン削減 16/06/2026
- 論文解説: FrugalGPT - LLMカスケードで最大98%のコスト削減を実現 16/06/2026
- 論文解説: GPT Semantic Cache - セマンティックキャッシュによるLLMコスト削減 16/06/2026
- 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference 16/06/2026
- 論文解説: ToolPRM — Function Callingのためのプロセス報酬モデルによる推論時スケーリング 15/06/2026
- 論文解説: XGrammar-2 — エージェントLLMのための動的構造化生成エンジン 15/06/2026
- 論文解説: JSONSchemaBench — 構造化出力のための制約付きデコーディングベンチマーク 15/06/2026
- 論文解説: To Call or Not to Call — LLMツール呼び出しの必要性・有用性・コスト効率を評価するフレームワーク 15/06/2026
- IJCAI 2024論文解説: AutoAgents — タスク適応型マルチエージェント動的生成フレームワーク 14/06/2026
- arXiv論文解説: LLM-based Multi-Agent Systems — マルチエージェントアーキテクチャの体系的サーベイ 14/06/2026
- NeurIPS 2025論文解説: Multi-Agent Collaboration via Evolving Orchestration — 強化学習で進化するマルチエージェント協調オーケストレーション 14/06/2026
- 論文解説: MetaGPT — SOP駆動マルチエージェント協調フレームワーク 14/06/2026
- 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション構築フレームワーク 14/06/2026
- 論文解説: ChatDev — マルチエージェント協調によるソフトウェア開発自動化 12/06/2026
- Anthropicが提唱する効果的なAIエージェント設計パターン解説 12/06/2026
- 長時間稼働エージェントのハーネス設計パターン解説 12/06/2026
- Anthropicのマルチエージェントリサーチシステム設計解説 12/06/2026
- 論文解説: MCP-Zero — MCPエージェントのための動的ツール発見フレームワーク 11/06/2026
- 論文解説: Mem0 — 本番運用可能なAIエージェント向けスケーラブル長期記憶 11/06/2026
- 論文解説: MALBO — 多目的ベイズ最適化によるマルチエージェントチーム最適化 10/06/2026
- 論文解説: RouteLLM — プリファレンスデータによるLLMルーティング学習 10/06/2026
- 論文解説: GuardAgent — 知識ベース推論によるLLMエージェントの安全性保証 10/06/2026
- 論文解説: AIOS — LLMエージェントのためのオペレーティングシステム 10/06/2026
- NAACL 2025論文解説: プロンプト圧縮手法の体系的サーベイ — Hard/Soft圧縮の分類と比較 10/06/2026
- 論文解説: LongLLMLingua — 質問認識型プロンプト圧縮で4倍圧縮・21%精度向上 10/06/2026
- EMNLP 2024論文解説: SELF-ROUTE — RAGとLong Contextのハイブリッドルーティング 10/06/2026
- 論文解説: Many-Shot In-Context Learning — 数百〜数千例で Few-Shot を超える 10/06/2026
- 論文解説: AgentScope — 柔軟かつ堅牢なマルチエージェントプラットフォーム 10/06/2026
- ICML 2025論文解説: LaRA — RAG vs Long Context LLMベンチマーク 10/06/2026
- 論文解説: Mem-α — 3階層メモリとインテリジェントルーティングでマルチエージェントLLMを強化 09/06/2026
- 論文解説: AgentDiet — 推論時トラジェクトリ圧縮でLLMエージェントのトークンコストを最大60%削減 09/06/2026
- 論文解説: MemAgent — daGRPOで7Bモデルを3000Kトークン対応の長文処理エージェントに 09/06/2026
- 論文解説: Memory-R1 — LLMエージェントにメモリ操作をRLでエンドツーエンド学習させる 09/06/2026
- 論文解説: MemCtrl — RL訓練メモリコントローラでLLMエージェントの精度向上とトークン削減を両立 09/06/2026
- 論文解説: Lost in the Middle at Birth — Transformer位置バイアスの厳密理論 08/06/2026
- AWS解説: LLM応答コスト90%削減を実現するキャッシュ戦略の実践ガイド 08/06/2026
- 論文解説: Inference Scaling for Long-Context RAG — 推論計算量スケーリングによるRAG性能の線形改善 08/06/2026
- ICML 2025論文解説: NoLiMa — リテラルマッチを超えるロングコンテキスト評価ベンチマーク 08/06/2026
- 論文解説: Found in the Middle — 位置注意バイアスの較正によるロングコンテキスト活用の改善 08/06/2026
- 論文解説: ENOVA — 半教師ありVAEによるサーバーレスLLMサービングの自動構成とオートスケーリング 07/06/2026
- 論文解説: Teaching Large Language Models to Self-Debug — LLMの自己デバッグ手法 07/06/2026
- 論文解説: SWE-Search — MCTSで実世界ソフトウェアエンジニアリングタスクを解く 07/06/2026
- 論文解説: Helium — データベースクエリ最適化でLLMエージェントワークフローを最大39倍高速化 07/06/2026
- 論文解説: LATS — 推論・行動・計画を統合するLLMエージェント木探索 07/06/2026
- OSDI 2024論文解説: ServerlessLLM — マルチティアチェックポイントで実現する低レイテンシサーバーレスLLM推論 07/06/2026
- 論文解説: Tree of Thoughts — LLM推論を木探索で強化する意思決定フレームワーク 07/06/2026
- 論文解説: Agentic Plan Caching — テスト時プラン再利用でLLMエージェントコストを50%削減 07/06/2026
- 論文解説: CodeTree — エージェント誘導型木探索によるLLMコード生成 07/06/2026
- 論文解説: Agentless — ツール不使用の自律ソフトウェア修正手法 06/06/2026
- サーベイ解説: LLMマルチエージェントシステムの最前線 — 6軸分類と設計パターン 06/06/2026
- 論文解説: Reasoning Models Don't Always Say What They Think — CoT推論の忠実性問題 06/06/2026
- 論文解説: Is Self-Repair a Silver Bullet for Code Generation? — LLMコード自己修復の可能性と限界 05/06/2026
- 論文解説: BitsAI-CR — ByteDanceにおけるLLMコードレビュー自動化の実践 05/06/2026
- 論文解説: Sarathi-Serve — Chunked PrefillsによるLLM推論スループット-レイテンシ最適化 03/06/2026
- 論文解説: Llumnix — LLMサービングのための動的リクエストリスケジューリング 03/06/2026
- Anyscale解説: Ray Data LLMによるvLLM同期エンジン比2倍スループットの実現 03/06/2026
- 論文解説: vLLM — PagedAttentionによるLLMサービングのメモリ効率革新 03/06/2026
- ASPLOS 2024論文解説: SpotServe — プリエンプティブルインスタンス上のLLMサービングシステム 03/06/2026
- 論文解説: Prompt Injection Attacks in LLMs — 30攻撃×10防御の統一ベンチマーク評価 02/06/2026
- サーベイ解説: Towards Agentic AI Security — エージェントAIセキュリティの脅威タクソノミーと防御戦略 02/06/2026
- 論文解説: OAuth for LLMs — マルチエージェント向け委任認可フレームワーク 02/06/2026
- 論文解説: ReAct — LLMにおける推論と行動の統合がLangGraphの設計基盤になるまで 01/06/2026
- Anthropic公式ブログ解説: Building Effective Agents — 5つのワークフローパターンとLangGraph 1.2への対応 01/06/2026
- ICLR 2025論文解説: LongMemEval — チャットアシスタントの長期記憶ベンチマーク 30/05/2026
- 論文解説: Multi-Modal Vision vs. Text-Based Parsing — LLMによる請求書処理戦略のベンチマーク 30/05/2026
- EMNLP 2025論文解説: Memory OS of AI Agent — LLMエージェントのためのOS型メモリ管理 30/05/2026
- ICSE 2026論文解説: TraceCoder — トレース駆動型マルチエージェントによるLLM生成コードの自動デバッグ 29/05/2026
- 論文解説: AgenTracer — LLMエージェントシステムの障害トレーシングと根本原因分析 29/05/2026
- 論文解説: TRAIL — エージェントトレースの推論と障害特定ベンチマーク 29/05/2026
- サーベイ解説: LLMエージェントの自律メモリ — 機構・評価・フロンティア 29/05/2026
- 論文解説: MemMachine — Factual Ground Truthを保護するパーソナライズドAIエージェントメモリ 29/05/2026
- 論文解説: DoVer — LLMマルチエージェントシステムの介入駆動型自動デバッグ 29/05/2026
- 論文解説: MemoRAG — メモリ駆動型次世代RAGアーキテクチャ 29/05/2026
- 論文解説: MuxServe ― 空間的・時間的多重化による複数LLMの効率的GPUサービング 28/05/2026
- Google Cloud解説: vLLMパフォーマンスチューニング実践ガイド ― GPU/TPUの推論構成最適化 28/05/2026
- 論文解説: ServerlessLLM ― サーバレス環境でのLLM推論コールドスタート問題を解決する 28/05/2026
- Google Cloud解説: Vertex AIモデルco-hostingによるLLMサービング効率化 28/05/2026
- SOSP 2023論文解説: PagedAttentionによるLLMサービングの効率的メモリ管理 ― vLLMの中核技術 28/05/2026
- 論文解説: LLMパワード文書解析による高度なRAGインジェスションプロセス 27/05/2026
- 論文解説: ToolACE ― 自己進化的パイプラインによるFunction Calling訓練データの大規模生成 27/05/2026
- EMNLP 2024論文解説: Let Me Speak Freely? ― 構造化出力制約がLLM性能に与える影響の実証研究 27/05/2026
- ICLR 2025論文解説: ToolGen ― ツール検索と呼び出しを生成で統一するフレームワーク 27/05/2026
- 論文解説: ToolLLM — 16000以上の実世界APIをLLMに習得させるフレームワーク 26/05/2026
- 論文解説: MCPエージェントエコシステムのセキュリティ — 4つの攻撃ベクタと6つの対策 26/05/2026
- 論文解説: MCPBench — MCPサーバーの実用性を体系的に評価するベンチマーク 26/05/2026
- 論文解説: AgenticRAG — エージェント型検索拡張生成 26/05/2026
- 論文解説: AIオーケストレーションフレームワーク比較調査 — Semantic Kernelの位置づけ 26/05/2026
- 論文解説: MCP-Zero — MCPエコシステムにおける能動的ツール探索フレームワーク 26/05/2026
- 論文解説: Active Retrieval Augmented Generation (FLARE) 26/05/2026
- 論文解説: MCTSr — MCTS自己洗練でLLaMA-3 8BがGPT-4数学レベルに到達 25/05/2026
- Inside the LLM Call: OpenTelemetry GenAI Semantic Conventionsによるエージェントオブザーバビリティの実践 23/05/2026
- 論文解説: Agent Workflow Memory — ワークフロー記憶の蒸留によるエージェント自己改善 22/05/2026
- 論文解説: MemoryOS — AIエージェント用メモリオペレーティングシステムの3層階層設計 22/05/2026
- 論文解説: MemGPT — LLMをオペレーティングシステムとして扱う仮想コンテキスト管理 22/05/2026
- サーベイ解説: 投機的デコーディングの包括的調査 - LLM推論高速化手法の分類と比較 21/05/2026
- 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論の高速化 21/05/2026
- 論文解説: EAGLE-3 - Training-Time Test-Scalingによる投機的デコーディングの高速化 21/05/2026
- 論文解説: SpecInfer - 投機的推論とトークンツリー検証によるLLMサービング高速化 21/05/2026
- 論文解説: Category-Aware Semantic Caching — 異種LLMワークロードのためのカテゴリ別キャッシュ最適化 19/05/2026
- 論文解説: Krites — 非同期検証によるセマンティックキャッシュの精度と再利用率の両立 19/05/2026
- NeurIPS 2025論文解説: KVCOMM — マルチエージェントLLM推論のためのKVキャッシュ共有フレームワーク 19/05/2026
- 論文解説: ServerlessLLM — ローカリティ最適化によるLLMモデルロードの高速化 19/05/2026
- 論文解説: Continuum — KVキャッシュTTLによるマルチターンLLMエージェントの効率的スケジューリング 19/05/2026
- 論文解説: TVCACHE — LLMエージェント訓練のためのステートフルなツール値キャッシュ 19/05/2026
- 論文解説: Llumnix — マルチインスタンスLLMサービングの動的スケジューリングとライブマイグレーション 19/05/2026
- 論文解説: DistServe — Prefill/Decode分離によるLLMサービングのGoodput最適化 19/05/2026
- 論文解説: GPTCache — LLM向けセマンティックキャッシュによる推論コスト削減 19/05/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 19/05/2026
- 論文解説: Internet of Agents — 異種エージェント統合のための通信プロトコル設計 17/05/2026
- 論文解説: A Survey on Agent Communication Protocols 17/05/2026
- 論文解説: Towards Efficient Multi-LLM Inference — ルーティング vs 階層的推論の体系的比較 16/05/2026
- INFOCOM 2026論文解説: セマンティックキャッシュによる低コストLLMサービング — オフライン学習からオンライン適応へ 16/05/2026
- 論文解説: TensorOpera Router (PolyRouter) — kNN・MLP・BERTによるマルチモデルLLMルーティング 16/05/2026
- Portkeyテックブログ解説: Gateway 2.0 — 1日1兆トークンを処理するAIゲートウェイのフルOSS化 16/05/2026
- 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference — LLMルーティング手法の体系的サーベイ 16/05/2026
- Mem0ブログ解説: State of AI Agent Memory 2026 - エージェントメモリの産業動向と技術分析 15/05/2026
- NeurIPS 2025論文解説: A-MEM - Zettelkasten方式によるLLMエージェントの動的メモリ組織化 15/05/2026
- 論文解説: Agentic Memory - 強化学習によるLLMエージェントの統合メモリ管理 15/05/2026
- ACL 2024論文解説: Evaluating Very Long-Term Conversational Memory of LLM Agents 15/05/2026
- 論文解説: E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory 15/05/2026
- 長時間実行エージェントのための効果的なハーネス設計 — Anthropicの実践知見 12/05/2026
- Anthropic Research解説: Bloom — 行動評価を自動生成するオープンソースフレームワーク 12/05/2026
- 論文解説: マルチエージェントシステムのオーケストレーション — アーキテクチャ・プロトコル・エンタープライズ導入 12/05/2026
- 論文解説: DAAO — 難易度適応型エージェントオーケストレーションによるクエリ特化マルチエージェントワークフロー 12/05/2026
- Anthropicのマルチエージェントリサーチシステム: オーケストレータ・ワーカーパターンの設計と運用 12/05/2026
- 論文解説: From Agent Loops to Structured Graphs — LLMエージェント実行のスケジューラ理論的フレームワーク 12/05/2026
- 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション 11/05/2026
- Meta Engineering解説: LLM推論スケーリングにおけるテンソル・コンテキスト・エキスパート並列化 11/05/2026
- 論文解説: PowerInfer - コンシューマGPUでの高速LLM推論エンジン 11/05/2026
- 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化 11/05/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 11/05/2026
- 論文解説: APIGen — 検証可能なFunction Callingデータセット自動生成パイプライン 10/05/2026
- 論文解説: Seal-Tools — ネスト関数呼び出しを含むツール学習データセットと3次元評価 10/05/2026
- 論文解説: API-Bank — ツール拡張LLMの3段階ベンチマーク 10/05/2026
- 論文解説: NexusRaven — Function Calling特化オープンソースLLMの設計と評価 10/05/2026
- Vercel AI SDK 6解説: エージェント抽象化と型安全なFunction Callingフレームワーク 10/05/2026
- 論文解説: TurboRAG — KVキャッシュ事前計算によるRAG推論高速化 09/05/2026
- 論文解説: Reasoning Under Adaptive Budgets — LLMの推論効率化サーベイ 09/05/2026
- AWS技術解説: SageMaker HyperPodの階層型KVキャッシュとインテリジェントルーティング 08/05/2026
- NVIDIA技術解説: LLM推論コストベンチマーキング — TCO算出からPareto最適化まで 08/05/2026
- 論文解説: RACE — LLM推論パイプラインのコスト事前予測フレームワーク 08/05/2026
- ICLR 2024論文解説: FastGen — プロファイリング駆動の適応的KVキャッシュ圧縮 08/05/2026
- 論文解説: MemoryOS — OS設計に着想した3層階層メモリ管理システム 05/05/2026
- 論文解説: 再帰的要約によるLLMの長期対話メモリ実現 05/05/2026
- 論文解説: Mem0 — プロダクション対応のスケーラブルLLM長期メモリ層 05/05/2026
- Anthropicブログ解説: AIエージェントのための効果的なコンテキストエンジニアリング 05/05/2026
- 論文解説: MemGPT — LLMをオペレーティングシステムとして捉える仮想コンテキスト管理 05/05/2026
- EMNLP 2024論文解説: LLMのツール利用アラインメント — H2A原則による安全なエージェント設計 04/05/2026
- 論文解説: ToolLLM — 16000以上の実世界APIをLLMに習得させるフレームワーク 04/05/2026
- 論文解説: SWE-agent — Agent-Computer Interface設計がソフトウェアエンジニアリングエージェントの性能を決定する 04/05/2026
- NVIDIA技術ブログ解説: LLM推論最適化の全体像 — KVキャッシュからSpeculative Decodingまで 03/05/2026
- 論文解説: Mixture-of-Agents — 複数LLM協調による品質向上フレームワーク 03/05/2026
- ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs 03/05/2026
- 論文解説: FrugalGPT — LLMカスケードによるコスト98%削減フレームワーク 03/05/2026
- 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク 03/05/2026
- 論文解説: S-LoRA — 数千のLoRAアダプタを同時サービングするメモリ管理手法 02/05/2026
- 論文解説: DistServe — Prefill/Decode分離によるLLMサービングのGoodput最適化 02/05/2026
- Meta Engineering解説: Scaling LLM Inference — Tensor/Context/Expert Parallelismの革新 02/05/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 02/05/2026
- 論文解説: Scaling LLM Test-Time Compute Optimally 30/04/2026
- 論文解説: A-RAG — Agentic Retrieval-Augmented Generation 30/04/2026
- Anthropic公式ガイド解説: 効果的なAIエージェント設計の7パターン 29/04/2026
- 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション基盤 29/04/2026
- 論文解説: ReWOO — 観察なし推論による効率的なLLMツール並列実行 29/04/2026
- 論文解説: LLM-based Automated Code Review — 87本のメタ分析から見えるファインチューニングの有効性 28/04/2026
- 論文解説: GASP — Guided Asymmetric Self-Play for Continued Improvement of LLMs 27/04/2026
- 論文解説: SPC — Evolving Self-Play Critic via Adversarial Games for LLM Reasoning 27/04/2026
- 論文解説: Generative Agents — 自然言語メモリストリームによる信頼性の高い自律エージェント 27/04/2026
- NeurIPS 2025論文解説: A-Mem — Zettelkasten方式によるLLMエージェントの自律型メモリ管理 27/04/2026
- 論文解説: SPIN — Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models 27/04/2026
- 論文解説: MemGPT — LLMをOSとして捉える階層型メモリアーキテクチャ 27/04/2026
- AWS公式ブログ解説: Amazon Bedrock AgentCoreエピソディックメモリによるエージェントの経験学習 27/04/2026
- 論文解説: STP — Self-play LLM Theorem Provers with Iterative Conjecturing and Proving 27/04/2026
- 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価 26/04/2026
- OpenAI解説: Harness Engineering — Codexエージェントでの100万行コード生成の実践 26/04/2026
- Martin Fowler解説: Harness Engineering for Coding Agents — Guide/Sensorパターンの実践的設計 26/04/2026
- 論文解説: Evaluating LLMs as Judges — LLM-as-judgeの正確性・位置バイアス・一貫性の体系的評価 26/04/2026
- 論文解説: MetaGPT — Meta Programming for A Multi-Agent Collaborative Framework 26/04/2026
- DeepSeek V4-Pro解説: 1.6Tパラメータ MoEアーキテクチャと圧縮スパースアテンションの技術詳細 26/04/2026
- Anthropic公式ブログ解説: Building Effective AI Agents — ワークフロー/エージェント設計パターンと評価手法 26/04/2026
- 論文解説: Skills for Scalable AI Agents — スキルのライフサイクルと相転移現象 26/04/2026
- 論文解説: Enhancing Multi-Server MCP Interactions Through Context-Aware Server Collaboration 26/04/2026
- 論文解説: Large Language Model based Multi-Agents — A Survey of Progress and Challenges 26/04/2026
- 論文解説: Think, But Don't Overthink — LLM推論における過剰思考の抑制と動的トークン予算制御 26/04/2026
- 論文解説: MemGPT — 仮想メモリ管理に着想を得たLLMエージェントの無制限セッション維持 26/04/2026
- 論文解説: Scaling LLM Test-Time Compute with REPL — コード実行ループによる推論スケーリング 26/04/2026
- Prime Intellect解説: Recursive Language Models — 2026年の推論パラダイムとなるか 26/04/2026
- OpenAI公式ブログ解説: GPT-5.5 — 完全再学習ベースモデルのアーキテクチャと性能分析 26/04/2026
- 論文解説: Multi-Agent Systems — From Classical Paradigms to Large Foundation Model-Enabled Futures 26/04/2026
- 論文解説: Externalization in LLM Agents — Memory・Skills・Protocols・Harnessの統一的分類体系 26/04/2026
- 論文解説: Recursive Language Models — REPL環境による再帰的推論でコンテキストウィンドウの100倍超を処理 26/04/2026
- 論文解説: CustomerServiceBench — カスタマーサービス対話におけるLLM評価ベンチマーク 26/04/2026
- 論文解説: SnapKV―LLMはprefill時に何が重要か既に知っている 26/04/2026
- 論文解説: Attention Sinkによる効率的なストリーミングLLM推論 26/04/2026
- 論文解説: H2O ― Heavy-Hitter Oracleによる大規模言語モデルの効率的KVキャッシュ管理 26/04/2026
- 論文解説: Search-R1 — 強化学習による検索エンジン活用型LLM推論 25/04/2026
- NeurIPS 2024論文解説: ReST-MCTS* — プロセス報酬ガイド木探索によるLLM自己学習 25/04/2026
- 論文解説: Let's Verify Step by Step — プロセス監督による数学的推論の改善 25/04/2026
- Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding 24/04/2026
- 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks 24/04/2026
- 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering 24/04/2026
- OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告 24/04/2026
- 論文解説: SWE-bench Pro — Can AI Agents Solve Long-Horizon Software Engineering Tasks? 24/04/2026
- 論文解説: AIOS — LLMエージェントのためのオペレーティングシステム 24/04/2026
- 論文解説: Agents — SOPベースの宣言的ステートマシンによる自律エージェントフレームワーク 24/04/2026
- EMNLP 2024論文解説: FlowBench — ワークフロー指示に基づくLLMエージェント計画能力の包括的ベンチマーク 24/04/2026
- 論文解説: GPT Semantic Cache — LLM APIコスト削減のためのセマンティックキャッシュ手法 23/04/2026
- 論文解説: MetaGPT — SOPベースのマルチエージェント協調フレームワーク 21/04/2026
- 論文解説: ToolRL — 報酬設計だけでLLMのツール使用能力を獲得する 21/04/2026
- Anthropic解説: Building Effective Agents — エージェント設計パターンの実践ガイド 21/04/2026
- 論文解説: ToolLLM — 16000以上の実世界APIをLLMに習得させるフレームワーク 21/04/2026
- Scale AI SWE-Bench Pro解説: データ汚染耐性を備えた次世代コーディングベンチマークの設計と結果 20/04/2026
- 論文解説: ルーティングとカスケードの統合フレームワーク — 理論最適性の証明と実践 20/04/2026
- 論文解説: Data Contamination Through the Lens of Time — LLMベンチマーク汚染の時系列分析 20/04/2026
- 論文解説: BEST-Route — Azure AI Model Routerを支えるルーティング×Best-of-N最適化 20/04/2026
- 論文解説: EvalPlus — コード生成LLMの厳密な評価フレームワーク 20/04/2026
- 論文解説: Evaluating Large Language Models Trained on Code — HumanEvalとpass@kの原点 20/04/2026
- 論文解説: LiveBench — データ汚染に耐性を持つ動的LLMベンチマーク 20/04/2026
- 論文解説: BigCodeBench — 多様なAPI呼び出しと複雑な指示によるコード生成の総合評価 20/04/2026
- 論文解説: Hybrid LLM — 品質制約付きコスト効率的クエリルーティング 20/04/2026
- 論文解説: LiveCodeBench — データ汚染フリーなLLMコード生成の継続的評価 20/04/2026
- 論文解説: GPQA — 大学院レベルのGoogle-Proof質問応答ベンチマーク 20/04/2026
- 論文解説: FrugalGPT — LLMカスケードによるコスト最大98%削減フレームワーク 20/04/2026
- 論文解説: RouteLLM — 人間嗜好データによるLLMルーティングの学習 20/04/2026
- 論文解説: MMLU-Pro — より頑健で挑戦的なマルチタスク言語理解ベンチマーク 20/04/2026
- 論文解説: SWE-bench — 実世界GitHubイシューによるLLMコード修正能力の評価 20/04/2026
- 論文解説: Benchmarking Agentic Workflow Generation — LLMワークフロー計画能力の体系的評価 19/04/2026
- 論文解説: ReAct — LLMにおける推論と行動の統合 19/04/2026
- OpenAI解説: Testing Agent Skills Systematically — AIエージェントのスキル評価を体系化する 19/04/2026
- 論文解説: LLMLingua — 小型LMによるプロンプト圧縮でAPI推論コストを削減する手法 18/04/2026
- ICML 2024論文解説: Dynamic Memory Compression — オンラインKVキャッシュ圧縮によるLLM推論高速化 18/04/2026
- 論文解説: Compress to Impress — 長期会話における圧縮メモリの活用 18/04/2026
- Anthropic Engineering解説: Effective Context Engineering for AI Agents 18/04/2026
- 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理アーキテクチャ 18/04/2026
- ICML 2024論文解説: KIVI — チューニング不要のKVキャッシュ2bit非対称量子化 17/04/2026
- 論文解説: CacheBlend — RAG向けKVキャッシュ融合によるLLM推論高速化 17/04/2026
- NeurIPS 2024論文解説: SnapKV — 生成前にKVキャッシュの重要トークンを選択する手法 17/04/2026
- 論文解説: vLLM — PagedAttentionによるKVキャッシュメモリ管理の革新 17/04/2026
- 論文解説: SGLang — RadixAttentionによるLLMプレフィックスキャッシュの自動再利用 17/04/2026
- NeurIPS 2024論文解説: iAgents — 情報非対称下でのマルチエージェント自律協調とInfoNavメカニズム 16/04/2026
- ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を通信トポロジごとに定量評価 16/04/2026
- 論文解説: A Survey of AI Agent Protocols — MCP・A2Aを含むエージェントプロトコルの体系的分類 16/04/2026
- 論文解説: τ-bench — ツール・エージェント・ユーザー三者間インタラクションの評価ベンチマーク 15/04/2026
- 論文解説: Mem0 — 本番運用を見据えたAIエージェント長期記憶レイヤーの設計と評価 15/04/2026
- ICML 2024論文解説: Larimar — 脳着想エピソード記憶によるLLMの動的知識更新 15/04/2026
- 論文解説: Judging LLM-as-a-Judge — MT-BenchとChatbot Arenaによる自動評価の体系的検証 15/04/2026
- 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理 15/04/2026
- 論文解説: AdaptOrch — LLM性能収束時代のタスク適応型マルチエージェントオーケストレーション 14/04/2026
- ACL 2025論文解説: Meta-Tool — オープンワールドFunction Callingの実現 13/04/2026
- 論文解説: MCPAgentBench — MCPツール使用能力のリアルワールドベンチマーク 13/04/2026
- 論文解説: ToolACE — 高品質Function Callingデータの自動生成パイプライン 13/04/2026
- 論文解説: MCP Tool Descriptions Are Smelly! — MCPツール記述の品質問題と改善手法 13/04/2026
- ICML 2024論文解説: AnyTool — 大規模API環境における自己反省型エラーリカバリエージェント 12/04/2026
- 論文解説: xLAM — Function Calling特化のLarge Action Modelファミリー 12/04/2026
- 論文解説: Gorilla — 大規模API呼び出しにおけるLLMのハルシネーション抑制と検索拡張ファインチューニング 12/04/2026
- ICML 2024論文解説: LLMCompiler — LLMの並列Function Callingを最適化するコンパイラフレームワーク 12/04/2026
- NeurIPS 2024論文解説: Chain of Agents — マルチエージェント協調による長文コンテキスト処理 11/04/2026
- 論文解説: Mem0 — スケーラブルな長期記憶でAIエージェントのコンテキスト消費を97%削減 11/04/2026
- Microsoft Tech Blog解説: LLM推論最適化スタック — エンタープライズ向け優先順位付きプレイブック 11/04/2026
- 論文解説: Lost in the Middle — LLMの長文コンテキスト活用における位置バイアスの実証分析 11/04/2026
- 論文解説: TALE — Token-Budget-Aware LLM Reasoning 11/04/2026
- 論文解説: TokenSelect — 動的トークンレベルKVキャッシュ選択による長文推論の高速化 11/04/2026
- Google AI Co-Scientist — マルチエージェントAIによる創薬研究の加速 10/04/2026
- 論文解説: Memory in the Age of AI Agents — エージェントメモリの3次元分類法 09/04/2026
- 論文解説: Survey on Evaluation of LLM-based Agents — エージェント評価手法の体系的分類 09/04/2026
- 論文解説: Memory for Autonomous LLM Agents — エージェントメモリの機構・評価・フロンティア 09/04/2026
- 論文解説: DebugBench — LLMのデバッグ能力を18カテゴリで体系的に評価するベンチマーク 08/04/2026
- 論文解説: MINT — ツール使用とフィードバックを含むマルチターンLLM評価ベンチマーク 08/04/2026
- 論文解説: AgentMonitor — LLMマルチエージェントのリアルタイム監視・修正フレームワーク 08/04/2026
- Anthropic Engineering解説: AIエージェント評価(Evals)の体系的設計手法 08/04/2026
- 論文解説: Gorilla — Retrieval-Augmented TrainingによるLLMのAPI��び出し精度向上 06/04/2026
- 論文解説: ToolLLM — 16,000以上の実世界APIをLLMに習得させるフレームワーク 06/04/2026
- 論文解説: ToolACE — LLM Function Callingの精度を合成データで改善する 06/04/2026
- 論文解説: On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents 05/04/2026
- 論文解説: Rethinking the Reliability of Multi-agent System — ビザンチン障害耐性の視点から 05/04/2026
- 論文解説: Generative Semantic Communication — 生成AIによるセマンティック通信の統合的フレームワーク 04/04/2026
- 論文解説: SSCCNet — LLM時代に分離符号化が再び最適解となる理由 04/04/2026
- EMNLP 2025論文解説: Breaking Agents — LLMエージェントの機能不全増幅攻撃と防御 04/04/2026
- 論文解説: CRITIC — LLMの外部ツール検証による自己修正フレームワーク 04/04/2026
- 論文解説: Agent Design Pattern Catalogue — ファウンデーションモデルエージェントの設計パターン体系 04/04/2026
- 論文解説: Cache-to-Cache — LLM間KV-Cache直接転送によるセマンティック通信 04/04/2026
- ICML 2025論文解説: LLMマルチエージェント協調における障害耐性の研究 04/04/2026
- 論文解説: Sarathi-Serve — チャンクPrefillによるTTFT/TBT同時最適化 02/04/2026
- 論文解説: Speculative Sampling — ドラフトモデルによるLLMデコード高速化 02/04/2026
- 論文解説: DistServe — Prefill/Decode分離によるTTFT最適化LLMサービング 02/04/2026
- 論文解説: Streaming, Fast and Slow — 認知負荷に応じたLLMストリーミング最適化 02/04/2026
- 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論 01/04/2026
- 論文解説: SemanticCacheQA — LLMセマンティックキャッシュの効率と精度を評価するベンチマーク 30/03/2026
- OpenTelemetry GenAI SIGが提唱するAIエージェント可観測性の標準化戦略 30/03/2026
- 論文解説: DeepSeek-V3 — MLA+MoE+FP8混合精度で671Bモデルを低コスト学習する技術詳細 29/03/2026
- 論文解説: Methods of Improving LLM Training Stability — QK-NormからRMSNormまでの学習安定化技法 29/03/2026
- 論文解説: Self-RAG — 自己反省トークンによる適応的検索拡張生成 29/03/2026
- 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化 29/03/2026
- 論文解説: QLoRA — 4bit量子化とLoRAの組み合わせで65Bモデルを単一GPUでファインチューニング 29/03/2026
- NVIDIA Tech Blog解説: CUDA Graphsによるllama.cpp推論最適化 — カーネルローンチオーバーヘッドの体系的削減 29/03/2026
- 論文解説: GQA — Grouped-Query AttentionによるKVキャッシュ効率化とMHAからの変換手法 29/03/2026
- Cloudflare Tech Blog解説: Infire — Rust製LLM推論エンジンのエッジ最適化アーキテクチャ 29/03/2026
- 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する 29/03/2026
- 論文解説: Direct Preference Optimization (DPO) — 報酬モデル不要のLLMアライメント手法 29/03/2026
- 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装 29/03/2026
- 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化 29/03/2026
- 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLMサービングを高効率化 29/03/2026
- 論文解説: Orca — Iteration-Level Schedulingによる生成モデルサービングの革新 29/03/2026
- 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク 28/03/2026
- ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク 28/03/2026
- 論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク 28/03/2026
- 論文解説: Pick and Spin — セルフホスト型LLMのマルチモデルオーケストレーション 28/03/2026
- Google Research解説: エージェントシステムのスケーリング科学 — マルチエージェントが機能する条件と失敗する条件の定量分析 28/03/2026
- 論文解説: OneShield Privacy Guard — LLMプライバシーガードレールの実デプロイ比較分析 28/03/2026
- テックブログ解説: NVIDIA AI Blueprint — コスト効率の高いLLMルーティング基盤 28/03/2026
- Anthropic Engineering解説: マルチエージェント研究システムの設計と実装 — 単一エージェント比90.2%の性能向上を実現したアーキテクチャ 28/03/2026
- 論文解説: Reasoning Models Generate Societies of Thought — 推論モデル内部に自発的に創発する思考の社会 28/03/2026
- ICLR 2025論文解説: RouteLLM — 人間の選好データを活用したLLMルーティングフレームワーク 28/03/2026
- 論文解説: Hardware Acceleration of LLMs — GPU・FPGA・ASIC・PIM横断サーベイ 27/03/2026
- 論文解説: LUT-LLM — ルックアップテーブルによるFPGA上のLLM推論高速化 27/03/2026
- 論文解説: The AI Scientist — 完全自動オープンエンド科学的発見に向けて 27/03/2026
- 論文解説: FlightLLM — FPGAによるLLM推論の完全マッピングフロー 27/03/2026
- Google Research解説: Titans + MIRAS — AIに長期記憶を与える統一フレームワーク 25/03/2026
- 論文解説: FluxMem — Beta混合モデルによる適応的メモリ構造選択フレームワーク 25/03/2026
- 論文解説: Memori — セマンティックトリプルで実現する高精度・低コストLLMエージェント記憶層 25/03/2026
- 論文解説: A-MAC — 5因子構造化判定によるLLMエージェントの適応的メモリ入力制御 25/03/2026
- 論文解説: Titans — 推論時ニューラルメモリ更新による200万トークン超の長期記憶 25/03/2026
- 論文解説: SelfCheckGPT — 外部知識不要のLLM幻覚検出手法 24/03/2026
- 論文解説: MT-Bench — LLM-as-a-Judgeパラダイムの実証分析 24/03/2026
- 論文解説: RGB Benchmark — RAGに必要な4能力の体系的評価 24/03/2026
- ACL 2024論文解説: RAGTruth — RAGシステムの幻覚検出コーパスと評価手法 24/03/2026
- 論文解説: RAGAS — RAGパイプラインの自動評価フレームワーク 24/03/2026
- 論文解説: Adaptive Orchestration — マルチエージェントAIシステムの認知アーキテクチャ 23/03/2026
- 論文解説: FlowBench — LLMエージェントのワークフロー型別評価ベンチマーク 23/03/2026
- 論文解説: Tool-Augmented LLMs — 統合アーキテクチャと障害パターンのサーベイ 23/03/2026
- IJCAI 2024論文解説: Large Language Model based Multi-Agents — LLMマルチエージェントの進展と課題の包括的サーベイ 22/03/2026
- NeurIPS 2023論文解説: Toolformer — 言語モデルが自らツール使用を学習する自己教師あり手法 22/03/2026
- ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を評価するベンチマーク 22/03/2026
- 論文解説: Multi-Agent Collaboration Mechanisms — LLMベースマルチエージェント協調メカニズムの体系的サーベイ 22/03/2026
- 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション構築フレームワーク 22/03/2026
- 論文解説: ARES — An Automated Evaluation Framework for Retrieval-Augmented Generation Systems 21/03/2026
- ICML 2024論文解説: LLMガードレールの体系的設計手法 21/03/2026
- 論文解説: FrugalGPT — LLMコスト98%削減のカスケード戦略 21/03/2026
- 論文解説: Llama Guard — LLMベース入出力ガードレールの設計と実装 21/03/2026
- 論文解説: Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing — LLMエージェントと従来型MASの融合による処方的保全 20/03/2026
- 論文解説: Why Do Multi-Agent LLM Systems Fail? — マルチエージェントLLMシステムの失敗分類学 20/03/2026
- 論文解説: FD-LLM — 振動センサーデータからの故障診断に特化したLLMフレームワーク 20/03/2026
- 論文解説: Flow-of-Action — SOPに基づくLLMマルチエージェント根本原因分析システム 20/03/2026
- 論文解説: Exploring LLM-based Frameworks for Fault Diagnosis — HVACシステムにおけるマルチLLM故障診断の実証的評価 20/03/2026
- JetBrains Research解説: LLMエージェントのコンテキスト管理 — Observation MaskingとLLM要約の比較 20/03/2026
- 論文解説: CRAG — 検索品質を自己評価・修正するCorrective RAG 20/03/2026
- 論文解説: RAGAS — RAGシステムの自動評価フレームワーク 20/03/2026
- MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference 20/03/2026
- 論文解説: Recursively Summarizing Enables Long-Term Dialogue Memory in LLMs 20/03/2026
- 論文解説: FrugalGPT — 複数LLMのカスケード戦略によるコスト削減と精度向上 20/03/2026
- Redis AI Agent Memory: ステートフルAIシステムのためのメモリアーキテクチャ解説 20/03/2026
- 論文解説: CacheBlend — RAGにおけるKVキャッシュ融合による高速LLM推論 20/03/2026
- 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク 20/03/2026
- 論文解説: SWE-RL — 強化学習によるLLMのソフトウェアエンジニアリング推論能力の向上 20/03/2026
- 論文解説: SWE-bench Verified — LLMコーディングエージェント評価の業界標準ベンチマーク 20/03/2026
- 論文解説: OpenHands — An Open Platform for AI Software Agents 20/03/2026
- 論文解説: ChatDev — Communicative Agents for Software Development 20/03/2026
- 論文解説: Gemini 1.5 — 100万トークン長文脈理解を実現するMoEアーキテクチャ 20/03/2026
- 論文解説: LLMs Get Lost In Multi-Turn Conversation 20/03/2026
- 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering 20/03/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 20/03/2026
- 論文解説: ToolBeHonest — ツール使用LLMの幻覚を多層的に診断するベンチマーク 18/03/2026
- 論文解説: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use 18/03/2026
- 論文解説: LLM Agents Making Agent Tools — 研究論文からツールを自動構築するToolMaker 18/03/2026
- 論文解説: ToolACE — LLM Function Calling訓練データの自動生成パイプライン 18/03/2026
- 論文解説: Efficient Tool Use with Chain-of-Abstraction Reasoning 18/03/2026
- 論文解説: Agentic AI for Enterprise - Multi-Agent Orchestration with Guardrails 15/03/2026
- OpenTelemetry公式ブログ解説: LLMアプリケーションの可観測性設計パターン 14/03/2026
- BAIR Blog解説: The Shift from Models to Compound AI Systems — モノリシックモデルから複合AIへの転換 14/03/2026
- Anthropic Research解説: Building Effective AI Agents — エージェント設計パターンの実践ガイド 14/03/2026
- EMNLP 2025論文解説: How Good are LLM-based Rerankers? — リランキングモデルの実証分析 14/03/2026
- ICLR 2025論文解説: RouteLLM — 人間の嗜好データからLLMルーティングを学習する 14/03/2026
- 論文解説: Retrieval-Augmented Generation for Large Language Models — RAGパイプライン設計の体系的整理 14/03/2026
- vLLM公式ブログ解説: How Speculative Decoding Boosts vLLM Performance — 実装と性能評価 13/03/2026
- 論文解説: Fast Inference from Transformers via Speculative Decoding — 投機的デコーディングの原論文 13/03/2026
- 論文解説: EAGLE-3 — 学習時テストスケーリングによるLLM投機的デコーディングの進化 13/03/2026
- 論文解説: Medusa — 複数デコーディングヘッドによるLLM推論高速化フレームワーク 13/03/2026
- 論文解説: EAGLE — Feature Uncertaintyの再考によるLLM投機的デコーディングの高速化 13/03/2026
- Google Research解説: ユーザーレベル差分プライバシーによるLLMファインチューニング 12/03/2026
- 論文解説: FedKSeed — ゼロ次最適化による勾配不要の連合LLMファインチューニング 12/03/2026
- 論文解説: HetLoRA — 異種LoRA構成による通信効率的な連合LLMファインチューニング 12/03/2026
- ACL 2025論文解説: GNN-RAG — GNNの推論とLLMの言語理解を融合した知識グラフ質問応答 12/03/2026
- 論文解説: FLoRA — LoRAアダプタは勾配圧縮器である 12/03/2026
- 論文解説: Hybrid LLM — Conformal Predictionによる品質保証付きLLMルーティング 12/03/2026
- 論文解説: FrugalGPT — LLM APIコストを最大98%削減するカスケード戦略 12/03/2026
- 論文解説: MeanCache — ユーザー中心セマンティックキャッシュによるLLMサービスコスト削減 12/03/2026
- 論文解説: OpenFedLLM — 分散プライベートデータによるLLMの連合学習フレームワーク 12/03/2026
- ICLR 2025論文解説: RouteLLM — 嗜好データを用いたLLMルーティングによるコスト効率的推論 12/03/2026
- ICML 2025論文解説: EncryptedLLM — GPU加速FHEによるプライバシー保護LLM推論 12/03/2026
- Microsoft Research解説: PromptWizard — フィードバック駆動の自己進化型プロンプト最適化 11/03/2026
- NeurIPS 2024論文解説: Teach Better or Show Smarter? — 命令最適化 vs 例示最適化の体系的比較 11/03/2026
- 論文解説: GEPA — 反省的プロンプト進化が強化学習を超える(ICLR 2026 Oral) 11/03/2026
- 論文解説: TextGrad — テキストによる自動微分でLLMパイプラインを最適化する 11/03/2026
- 論文解説: DSPy — 宣言的LMパイプラインを自己改善コンパイラで最適化するフレームワーク 11/03/2026
- EMNLP 2025論文解説: GRPO-LEAD - 難易度考慮型GRPOによる簡潔な数学推論 10/03/2026
- NVIDIA NeMo-RL: GRPOによるDeepScaleRレシピの再現と大規模RL学習基盤 10/03/2026
- 論文解説: DAPO - 大規模GRPO学習の4つの失敗パターンとその解決策 10/03/2026
- 論文解説: DeepSeek-R1 - 強化学習によるLLM推論能力の段階的獲得パイプライン 10/03/2026
- 論文解説: DeepSeekMath - Group Relative Policy Optimization(GRPO)による数学推論の限界突破 10/03/2026
- テックブログ解説: Sufficient Context — RAGにおけるコンテキスト十分性の新しいレンズ(Google Research / ICLR 2025) 09/03/2026
- OpenAI Cookbook解説: Self-Evolving Agents — 自律的プロンプト最適化による自己進化エージェント 09/03/2026
- AWS解説: Amazon Bedrock Intelligent Prompt Routing - マネージドLLMルーティングの実装と設計 09/03/2026
- 論文解説: AutoMix - 追加学習不要の自己検証型LLMカスケードルーティング 09/03/2026
- 論文解説: AI駆動の自己修復ネットワーク制御プレーン — DRL+LLMハイブリッドアーキテクチャ 09/03/2026
- 論文解説: RAG vs ロングコンテキストLLMの包括的比較とSelf-Routeハイブリッド手法 09/03/2026
- 論文解説: Hybrid LLM - 品質保証付きコスト効率クエリルーティング 09/03/2026
- 論文解説: SELF-ROUTE — LLMの自己判定によるRAG/ロングコンテキスト動的ルーティング 09/03/2026
- NVIDIA AI Blueprint解説: コスト効率の高いLLMルーティングの実装アーキテクチャ 09/03/2026
- テックブログ解説: Context Rot — 入力トークン増加がLLM性能に与える影響(Chroma Research) 09/03/2026
- 論文解説: Kubernetes環境における自律エージェントの会話型インターフェース 09/03/2026
- 論文解説: RouteLLM - 選好データを活用したLLMルーティングフレームワーク 09/03/2026
- 論文解説: EvoAgent — 継続的探索によるエージェント自己進化フレームワーク 09/03/2026
- 論文解説: LaRA — RAGとロングコンテキストLLMのベンチマーク比較(ICML 2025) 09/03/2026
- 論文解説: CacheBlend - RAG向けKVキャッシュ融合によるLLM推論高速化 08/03/2026
- Anthropic Model Context Protocol (MCP)解説:LLMツール統合のオープン標準 08/03/2026
- 論文解説: MCP Safety Audit — MCPエコシステムのセキュリティ脅威分類とLLM脆弱性評価 08/03/2026
- 論文解説: ToolSandbox - LLMツール利用能力のステートフル評価ベンチマーク 08/03/2026
- 論文解説: LLM-Inference-Bench — マルチプラットフォームLLM推論ベンチマーク 08/03/2026
- CNCFブログ解説: すべてのAIプラットフォームがKubernetesに収斂する理由 08/03/2026
- NVIDIA技術ブログ解説: Run:ai + DynamoによるマルチノードスケジューリングでのLLM推論最適化 08/03/2026
- NVIDIA技術ブログ解説: Triton + TensorRT-LLMによるKubernetes上のLLMスケーリング 08/03/2026
- Red Hat技術ブログ解説: KubernetesでvLLMをデプロイしGuideLLMでベンチマークする実践ガイド 08/03/2026
- OpenAI Responses API設計思想の解説:Assistants APIからの進化と技術的背景 08/03/2026
- NVIDIA技術ブログ解説: Mastering LLM Techniques - 推論最適化の実践ガイド 07/03/2026
- OSDI 2022論文解説: Orca - Iteration-Level SchedulingによるLLMサービング最適化 07/03/2026
- 論文解説: SGLang - RadixAttentionとZero-Overhead Schedulerによる高性能LLM推論 07/03/2026
- 論文解説: BatchLLM - 大規模バッチLLM推論のGlobal Prefix SharingとToken Batching最適化 07/03/2026
- 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 07/03/2026
- 論文解説: Evaluating AGENTS.md — リポジトリレベルコンテキストファイルはコーディングエージェントに有効か 06/03/2026
- 論文解説: AutoTool — グラフベースのツール遷移確率によるLLMエージェントの効率的ツール選択 05/03/2026
- LLMトークン最適化: セマンティックキャッシュとプロンプト圧縮によるコスト・レイテンシ削減 05/03/2026
- 論文解説: Toolshed — RAG-Tool Fusionによる大規模ツール選択のスケーリング手法 05/03/2026
- LLMアプリケーションにおけるリトライ・フォールバック・サーキットブレーカーの使い分け 05/03/2026
- 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュの最適設計 05/03/2026
- 論文解説: SemCache — LLM推論のためのセマンティックキャッシュの精度と粒度を改善する 05/03/2026
- 論文解説: Agentic Plan Caching — LLMエージェントのコスト削減を実現するテスト時計画キャッシュ 05/03/2026
- 論文解説: Scaling LLM Test-Time Compute — 推論時間計算量の最適配分による性能向上 04/03/2026
- 論文解説: DeepSeek-V3 Technical Report — 671B MoEモデルの設計と効率的学習 04/03/2026
- 論文解説: SRE-Agent — LLMマルチエージェントによるSREタスク自動化フレームワーク 03/03/2026
- 論文解説: SWE-RL — 強化学習によるLLMのソフトウェアエンジニアリング推論能力の強化 28/02/2026
- 論文解説: Agentless — エージェント不要のシンプルなパイプラインでSWE-benchを解く 28/02/2026
- 論文解説: SWE-agent — Agent-Computer Interface設計がLLMエージェントのソフトウェアエンジニアリング性能を決める 28/02/2026
- 論文解説: Qwen2.5-Coder — 5.5兆トークンで学習したオープンソースコーディングLLMの設計と性能 27/02/2026
- NVIDIA解説: NVFP4 KV Cacheで長コンテキストLLM推論を最適化 — メモリ50%削減・TTFT 3倍高速化 24/02/2026
- Meta AI解説: 量子化Llamaモデル — QATとSpinQuantで推論速度2.5倍・モデルサイズ56%削減 24/02/2026
- Google Research解説: ReAct — 推論と行動のシナジーによるLLMエージェントの基盤パラダイム 24/02/2026
- 論文解説: AdaptiveRAG — クエリ複雑度分類器でRAG構成を動的適応し35%コスト削減 24/02/2026
- 論文解説: プロンプトキャッシュ戦略の体系的分析 — Claude/GPT-4/GeminiのAPIコスト60-80%削減 24/02/2026
- 論文解説: CodeAct — 実行可能コードでLLMエージェントの行動空間を統一する 24/02/2026
- MLSys 2024 Best Paper解説: AWQ — 活性化ベース重み量子化でLLMを4bitに圧縮 24/02/2026
- Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク 24/02/2026
- NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現 24/02/2026
- 論文解説: FrugalGPT — LLMカスケード・プロンプト適応・近似の3戦略で最大98%コスト削減 24/02/2026
- 論文解説: ReWOO — 観察を分離した効率的エージェント推論でトークン消費を大幅削減 24/02/2026
- 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ 24/02/2026
- 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減 24/02/2026
- MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論 24/02/2026
- ICML 2024論文解説: LATS — モンテカルロ木探索でLLMエージェントの推論・行動・計画を統合 24/02/2026
- SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention 24/02/2026
- ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較 24/02/2026
- 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価 24/02/2026
- 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索 24/02/2026
- 論文解説: Don't Do RAG — Cache-Augmented Generation(CAG)がRAGを置き換える条件 24/02/2026
- 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4 24/02/2026
- NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント 24/02/2026
- 論文解説: CachedAttention — マルチターン会話のKVキャッシュ再利用でTTFT 2.8倍高速化 23/02/2026
- Anthropic公式解説: Claude Prompt Cachingの技術仕様と最適化戦略 23/02/2026
- 論文解説: Towards Optimizing the Costs of LLM Usage — 品質予測とLP緩和によるLLMコスト40-90%削減 23/02/2026
- NVIDIA Developer Blog解説: AI Blueprint for Cost-Efficient LLM Routingの実装アーキテクチャ 23/02/2026
- 論文解説: LLMによるノーコード開発の適性要因 — エンドユーザーIoTアプリケーション開発への適用 23/02/2026
- 論文解説: Text-to-SQL based QA on Product Catalogs — RAG vs SQL の定量比較 23/02/2026
- 論文解説: CHASE-SQL — マルチパス推論×DPO候補選択でBIRDベンチマーク73.0%を達成したText-to-SQL 23/02/2026
- 論文解説: RAGCache — RAG向けKVキャッシュでTTFTを最大4倍高速化 23/02/2026
- 論文解説: DistServe — Prefill/Decode分離によるGoodput最適化LLMサービング 23/02/2026
- 論文解説: CoALA — 認知アーキテクチャに基づくLLMエージェントのメモリ分類体系 23/02/2026
- ICLR 2024論文解説: MiniLLM — 逆KLダイバージェンスによるLLMオンポリシー蒸留 23/02/2026
- COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQLフレームワーク 23/02/2026
- AWS公式解説: Letta(旧MemGPT)がAurora PostgreSQL + pgvectorでプロダクション向けAIエージェントを構築する方法 23/02/2026
- AWS公式解説: Amazon Bedrockプロンプトキャッシュの技術仕様とConverse API実装 23/02/2026
- AWS公式解説: Amazon Bedrock Cross-Region Inferenceでスロットリングを解消しスループットを向上させる 23/02/2026
- サーベイ解説: A Survey of Vibe Coding with Large Language Models — 制約付きMDPによる形式化と5つの開発モデル 23/02/2026
- 論文解説: ROUTE — マルチタスクFTとエキスパートLLM協調でText-to-SQL精度76.4%を達成 23/02/2026
- 論文解説: StructRAG — 推論時ハイブリッド情報構造化によるRAGの知識集約的推論強化 23/02/2026
- NeurIPS 2024論文解説: Compact Language Models via Pruning and Knowledge Distillation (Minitron) 23/02/2026
- COLING 2025論文解説: MAC-SQL — Selector・Decomposer・Refinerによるマルチエージェント協調Text-to-SQL 23/02/2026
- AWS公式解説: Amazon Bedrockのコスト最適化戦略 — 7つの手法で推論コストを最大90%削減 23/02/2026
- 論文解説: LLM4FaaS — LLMとFunction-as-a-Serviceで実現するノーコードアプリケーション開発 23/02/2026
- 論文解説: Llumnix — ライブマイグレーションによるLLM推論の動的スケジューリング 23/02/2026
- 論文解説: FrugalGPT — カスケード型LLMルーティングでコスト最大98%削減 23/02/2026
- NeurIPS 2024論文解説: HippoRAG — 海馬モデルに基づくLLMの長期記憶型RAGアーキテクチャ 23/02/2026
- CIDR 2025論文解説: AOP — DAGベース並列実行によるLLMパイプライン自動オーケストレーション 23/02/2026
- LangChain公式解説: LCEL(LangChain Expression Language)の設計思想とRunnable API 23/02/2026
- AWS公式ブログ解説: Bedrock Intelligent Prompt Routingのコスト・レイテンシ最適化戦略 23/02/2026
- Anthropic解説: Model Context Protocol (MCP) — AIアシスタントと外部データを接続する標準プロトコル 23/02/2026
- 論文解説: MemEngine — LLMエージェントメモリの統一モジュラーフレームワーク 23/02/2026
- 論文解説: Mem0 — ベクトルDB×グラフDBで実現するプロダクション向けLLMエージェント長期記憶 23/02/2026
- サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類 23/02/2026
- ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs — ルーティングとカスケードの統一的最適化 23/02/2026
- 論文解説: ALCE — LLMの引用付きテキスト生成を自動評価するベンチマーク 23/02/2026
- 論文解説: DIN-SQL — 分解型In-Context Learningで実現するText-to-SQL自己修正パイプライン 23/02/2026
- ICLR 2025論文解説: CHASE-SQL — マルチパス推論と選好最適化によるText-to-SQL 23/02/2026
- 論文解説: Vibe Coding — AIとの対話によるプログラミングの実証分析 23/02/2026
- 論文解説: Agentic Retrieval-Augmented Generation — エージェント型RAGアーキテクチャの体系的分類 23/02/2026
- 論文解説: RouteLLM — 選好データに基づくLLMルーティングでコスト85%削減 23/02/2026
- 論文解説: PipeRAG — パイプライン並列化によるRAG高速化のアルゴリズム・システム協調設計 23/02/2026
- 論文解説: MemGPT — OS仮想メモリ概念でLLMエージェントの長期記憶を実現する 23/02/2026
- CIDR 2025論文解説: Text2SQL is Not Enough — TAGフレームワークによるDB×LLM推論の統合 23/02/2026
- NeurIPS 2025論文解説: A-MEM — Zettelkasten方式によるLLMエージェントの自律的メモリ管理 23/02/2026
- 論文解説: HELMET — 51モデルで検証する長コンテキストLLMの効果的な評価フレームワーク 22/02/2026
- 論文解説: Optima — LLMベースマルチエージェントシステムの効果と効率を同時最適化するフレームワーク 22/02/2026
- 論文解説: LLM-based ACR — 14モデル×8データセットによる自動コードレビューの実証研究 22/02/2026
- 論文解説: Don't Break the Cache — プロンプトキャッシュのエージェントタスクにおける体系的評価 22/02/2026
- サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析 22/02/2026
- 論文解説: Nexus — ドメイン特化スーパーバイザーの専門化と階層集約によるマルチエージェントシステム 22/02/2026
- 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク 22/02/2026
- 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価 22/02/2026
- 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows 22/02/2026
- 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する 22/02/2026
- 論文解説: On the Design and Analysis of LLM-Based Algorithms — 自己修正・アンサンブル・外部検証の理論的分析 22/02/2026
- 論文解説: Agent-R — MCTSベースの反復的自己訓練でLLMエージェントに自己反省能力を獲得させる 22/02/2026
- 論文解説: SWE-RL — オープンソースコード進化データによる強化学習でLLMコーディングエージェントを強化する 22/02/2026
- 論文解説: From Local to Global — GraphRAGによるクエリ指向要約の知識グラフアプローチ 22/02/2026
- AWS公式ブログ解説: Amazon MemoryDBによる永続セマンティックキャッシュでLLMワークロードを高速化・コスト削減 22/02/2026
- Anthropic解説: Code Execution with MCP — プログラマティックツール呼び出しでトークン消費98.7%削減 22/02/2026
- 論文解説: Smart RAG — クエリ分解×知識源評価×適応生成でRAG精度を段階的に改善 22/02/2026
- 論文解説: Multi-Agent Collaboration Mechanisms — LLMマルチエージェント協調の分類体系と設計指針 22/02/2026
- 論文解説: CoRAG — Chain-of-Retrieval Augmented Generation 22/02/2026
- 論文解説: OctoTools — DAG並列実行で推論時間47%削減の拡張可能なエージェントフレームワーク 22/02/2026
- 論文解説: MCTS-RAG — モンテカルロ木探索で小規模LMの検索拡張推論を飛躍的に強化 22/02/2026
- 論文解説: Speculative RAG — 並列ドラフト生成によるRAG高速化と精度向上の同時達成 22/02/2026
- Google解説: Gemini 3 API主要アップデート — thinking_level・media_resolution・Thought Signaturesの技術詳細 22/02/2026
- 論文解説: MCP-Zero — MCPエージェントのための能動的ツール発見フレームワーク 22/02/2026
- 論文解説: CoRAG — 反復的検索クエリ連鎖で知識集約型QAの精度を大幅向上 22/02/2026
- 論文解説: Semantic Caching for LLM-Driven RAG Systems — コスト効率の高いセマンティックキャッシュ戦略 22/02/2026
- 論文解説: MAESTRO — Multi-Agent Evaluation and Testing for Real-world Orchestration 22/02/2026
- サーベイ解説: Agentic RAG — エージェント型検索拡張生成の体系的分類と設計パターン 22/02/2026
- 論文解説: RouterBench — LLMルーターの包括的ベンチマークによるマルチソースルーティング最適化 22/02/2026
- 論文解説: PyramidKV — KVキャッシュ12%でFull精度の99%を維持する動的圧縮手法 22/02/2026
- 論文解説: FrugalGPT — 複数LLMカスケードによるコスト最大98%削減 22/02/2026
- 論文解説: Benchmarking Large Language Models for Vulnerability Detection — LLM脆弱性検出の定量評価 21/02/2026
- 論文解説: Not What You've Signed Up For — 間接プロンプトインジェクションの体系的脅威分析 21/02/2026
- 論文解説: Prompt Injection Attacks on Agentic Coding Assistants — 5製品の実証評価 21/02/2026
- NVIDIA Technical Blog解説: Teacher-Studentパラダイムで小規模LLMのコードレビュー精度を18%向上 21/02/2026
- 論文解説: WebArena — 812タスクの現実的Web環境で自律エージェントを評価する 21/02/2026
- 論文解説: Large Language Models are Zero-Shot Reasoners 21/02/2026
- Microsoft Research解説: CORE — LLMのProposer-Rankerアーキテクチャで静的解析の指摘を自動修正 21/02/2026
- Anthropic解説: Effective Context Engineering for AI Agents 21/02/2026
- 論文解説: A-RAG — 階層的検索インターフェースによるエージェントRAGのスケーリング 21/02/2026
- 論文解説: MLE-bench — 75のKaggleコンペでMLエンジニアリングエージェントを評価する 21/02/2026
- 論文解説: Reasoning Language Models: A Blueprint — 推論言語モデル構築の体系的設計図 21/02/2026
- 論文解説: GAIA — 汎用AIアシスタントの実力を測る466タスクベンチマーク 21/02/2026
- 論文解説: Tree of Thoughts — LLMによる探索的問題解決フレームワーク 21/02/2026
- サーベイ解説: リランキングモデルの進化 — ヒューリスティクスからLLMまでの体系的分類 21/02/2026
- 論文解説: LLM4CR — RAGとイテレーティブリファインメントによるLLMベースコードレビュー自動化 21/02/2026
- 論文解説: τ-bench — ツール・エージェント・ユーザー三者間対話の信頼性ベンチマーク 21/02/2026
- 論文解説: Self-Consistency Improves Chain of Thought Reasoning in Language Models 21/02/2026
- NVIDIA解説: Agent Morpheus — 生成AIによるエンタープライズCVE分析の自動化 21/02/2026
- NeurIPS 2024論文解説: RankRAG — コンテキストランキングとRAGを単一LLMで統合する 21/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を評価する 21/02/2026
- 論文解説: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models 21/02/2026
- EMNLP 2024論文解説: CodeAgent — マルチエージェントLLMによる自律的コードレビューシステム 21/02/2026
- 論文解説: Chain-of-Retrieval Augmented Generation — 反復的クエリ再構成でマルチホップQAの精度を向上 20/02/2026
- 論文解説: Query Routing for Homogeneous Tools — 同種ツール間の軽量クエリルーティング手法 20/02/2026
- 論文解説: AdaptiveRAG — クエリ分類×適応的検索戦略でRAGの精度とコストを両立する 20/02/2026
- 論文解説: SRAG — マルチホップ質問応答のための構造化RAG 20/02/2026
- 論文解説: RouteLLM — 人間選好データによるLLMコスト最適化ルーティング 20/02/2026
- 論文解説: RULER — Needle-in-a-Haystackの先にあるロングコンテキストLLM評価の決定版 20/02/2026
- Anthropic解説: Effective Context Engineering for AI Agents — LLMの注意予算を最適化する実践戦略 20/02/2026
- 論文解説: Agentic AI Systems in Financial Services — マルチエージェントLLMの信頼性設計パターン 20/02/2026
- 論文解説: TTT-E2E — テスト時学習でロングコンテキストLLMのメモリ・速度限界を突破する 20/02/2026
- 論文解説: Strategic and Selective Mixtures — LLMルーティングとカスケードの実装判断ガイド 20/02/2026
- EMNLP 2023論文解説: Query Rewriting for Retrieval-Augmented Large Language Models 20/02/2026
- NeurIPS 2024論文解説: Found in the Middle — Ms-PoEでLost in the Middle問題を解決する 20/02/2026
- 論文解説: A Systematic Review of Reliability Frameworks for Production LLM Systems 20/02/2026
- 論文解説: Corrective Retrieval Augmented Generation (CRAG) 20/02/2026
- 論文解説: MetaGPT — SOP駆動マルチエージェント協調フレームワーク 20/02/2026
- 論文解説: Lost in the Middle — LLMはロングコンテキストをどう使うか 20/02/2026
- AWS公式解説: LlamaIndex×Amazon Bedrockで構築するAgentic RAGアプリケーション 19/02/2026
- ACL 2025論文解説: MAIN-RAG — マルチエージェント協調フィルタリングでRAGの検索ノイズを解消する 19/02/2026
- 論文解説: LightRAG — デュアルレベル検索とインクリメンタル更新で実現する軽量グラフRAG 19/02/2026
- 論文解説: GraphRAG — ナレッジグラフとコミュニティ構造でRAGをグローバルに拡張する 19/02/2026
- 論文解説: Agentic RAG — 自律エージェントによる検索拡張生成の包括的サーベイ 19/02/2026
- 論文解説: Muon + MLA + MoE — 3技術統合で68%メモリ削減・3.2倍推論高速化を実現 19/02/2026
- 論文解説: MegaScale-MoE — 1,440 GPU上で1.88倍高速化を実現するMoE学習システム 19/02/2026
- 論文解説: DeepSeekMath — GRPOによるLLM数学推論の限界突破 19/02/2026
- 論文解説: Kimi K2 — 1兆パラメータMoE+MuonClipで実現するオープンエージェント知能 19/02/2026
- 論文解説: Muon is Scalable for LLM Training — Newton-Schulz直交化による2倍効率のオプティマイザ 19/02/2026
- 論文解説: JOrthoBench — 日本語表記ゆれによるLLM評価の盲点を暴く 19/02/2026
- 論文解説: MetaLLM — Multi-Armed Banditによるコスト効率最適のLLMルーティングフレームワーク 19/02/2026
- 論文解説: DeepSeek-V3 Technical Report — 671B MoEモデルの革新的アーキテクチャと$560万学習の全貌 19/02/2026
- 論文解説: AutoMix — 自己検証とPOMDPによるLLM自動カスケードルーティング 19/02/2026
- AWS技術ブログ解説: LLM-as-a-Judge on Amazon Bedrock — マネージドLLM評価の実装ガイド 19/02/2026
- 論文解説: RouterBench — LLMルーター評価のための標準ベンチマーク 19/02/2026
- NVIDIA技術ブログ解説: Mastering LLM Techniques: Evaluation — LLM・RAG評価の包括的ガイド 19/02/2026
- ICLR 2024論文解説: Hybrid LLM — クエリ難易度予測によるコスト効率的なLLMルーティング 19/02/2026
- 論文解説: PromptEval — プロンプトエンジニアリングの「何が重要か」を定量評価するフレームワーク 19/02/2026
- 論文解説: FrugalGPT — LLMカスケードで最大98%コスト削減を実現する合成フレームワーク 19/02/2026
- 論文解説: Evaluation-Driven Development and Operations(EDD)— LLMエージェントのライフサイクル評価統合パラダイム 19/02/2026
- ICLR 2025論文解説: RouteLLM — 選好データで学習するLLMルーティングフレームワーク 19/02/2026
- NVIDIA解説: Mixture of Expertsが最先端AIモデルを駆動する仕組み 19/02/2026
- 論文解説: When Better Prompts Hurt — 評価駆動プロンプト開発(EDPD)フレームワーク 19/02/2026
- Anthropic解説: A Statistical Approach to Model Evaluations — LLM評価に統計的厳密性を導入する5つの提言 18/02/2026
- 論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena 18/02/2026
- 論文解説: Progressive Rollout Strategies for LLM Updates — カナリア・ブルーグリーン・シャドウの段階的ロールアウト戦略 18/02/2026
- 論文解説: Lost in the Middle — LLMが長文コンテキストの中間を無視するU字型性能曲線の発見 18/02/2026
- Microsoft Research解説: LLMLinguaシリーズ — プロンプト圧縮技術の進化と20倍圧縮の実現 18/02/2026
- Microsoft Research解説: How to Evaluate LLMs — 本番LLM評価のための完全メトリクスフレームワーク 18/02/2026
- NVIDIA技術ブログ解説: Mastering LLM Techniques: LLMOps — 本番LLMパイプラインの設計パターン 18/02/2026
- 論文解説: MemGPT — OS仮想メモリをLLMに適用し無限コンテキストを実現するアーキテクチャ 18/02/2026
- 論文解説: PromptOps — プロダクション向けプロンプトバージョニングとライフサイクル管理 18/02/2026
- 論文解説: LLMLingua-2 — GPT-4蒸留によるタスク非依存プロンプト圧縮で3-6倍高速化 18/02/2026
- 論文解説: Quality Gates in LLM Development — 評価からデプロイまでの品質ゲート体系 18/02/2026
- 論文解説: NoLiMa — 非リテラルマッチングで暴くLLM長文理解の真の限界 18/02/2026
- 論文解説: State of What Art? — マルチプロンプトLLM評価の必要性 18/02/2026
- 論文解説: Chatbot Arena — 人間の選好投票によるLLM評価プラットフォーム 18/02/2026
- 論文解説: Sarathi — Chunked PrefillとDecode Piggybackingで推論レイテンシを最大74%削減 17/02/2026
- 論文解説: SGLang — RadixAttentionによるKVキャッシュ再利用で構造化LLMプログラムを最大5倍高速化 17/02/2026
- 論文解説: Prompt Cache — モジュラーKVキャッシュ再利用でLLM推論TTFTを3.5倍高速化 17/02/2026
- 論文解説: Orca — イテレーションレベルスケジューリングでLLM推論スループットを36.9倍に 17/02/2026
- 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLM推論スループットを最大4倍に 17/02/2026
- 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る 17/02/2026
- COLING 2025論文解説: Benchmark Self-Evolving — マルチエージェントによる動的LLM評価フレームワーク 17/02/2026
- Microsoft Research解説: LLM評価のための完全メトリクスフレームワーク — GPU利用率からユーザー満足度まで 17/02/2026
- NeurIPS 2024論文解説: LLM-Check — LLMのHallucination検出手法の体系的評価 17/02/2026
- Amazon Bedrock Automated Reasoningによる数学的LLM出力検証 17/02/2026
- NeurIPS 2025論文解説: Multi-Agent Collaboration via Evolving Orchestration — 強化学習で進化する操り人形師パラダイム 17/02/2026
- USENIX事例報告: CI/CDにLLM推論を組み込んだ際の信頼性問題と5つのガードレール設計 17/02/2026
- NVIDIA ToolOrchestra: 小型モデルで大型LLMを指揮する — Orchestrator-8Bの強化学習ベースオーケストレーション 17/02/2026
- NVIDIA NeMo Guardrailsのストリーミング検証アーキテクチャ解説 17/02/2026
- 論文解説: PromptBench — LLM評価を統一するベンチマークライブラリの設計と実装 17/02/2026
- 論文解説: Llama Guard — LLMベースの入出力セーフガードモデル 17/02/2026
- 論文解説: NeMo Guardrails - プログラマブルなLLM安全性制御フレームワーク 17/02/2026
- 論文解説: Mixture-of-Agents — 複数LLMの階層的協調で単体GPT-4oを超える 17/02/2026
- 論文解説: HaloScope — ラベルなしLLM生成文からのHallucination検出 17/02/2026
- 論文解説: ReAct - Synergizing Reasoning and Acting in Language Models 16/02/2026
- Anthropic Agent Skills解説:プロダクション環境でのLLMエージェント拡張戦略 15/02/2026
- 論文解説: プロンプト圧縮でトークン数40-60%削減: 文レベル符号化による高速LLM推論 15/02/2026
- 論文解説: LLMサービング性能ベンチマーク: レイテンシ・スループット・コスト最適化の徹底比較 15/02/2026
- 論文解説: LLM生成パラメータのコスト最適化: ベイズ最適化で20-40%削減 15/02/2026
- 論文解説: Beyond ChatGPT: 50社以上の本番LLMデプロイ実態調査とコスト構造分析 15/02/2026
- 論文解説: Infinite-LLM: 分散KVキャッシュで100万トークンのコンテキストを低コストで処理 15/02/2026
- Meta Code Llama解説: オープンソースで実現する最先端コード生成 15/02/2026
- 論文解説: LLMベースのコード生成エージェント完全サーベイ 15/02/2026
- カンファレンス論文解説: AvaTaR - LLMエージェントのツール使用最適化 15/02/2026
- Speculative RAG: Draftingで推論を高速化する最新手法 15/02/2026
- 論文解説: SE 3.0 - AI-Nativeソフトウェア工学の新パラダイム 15/02/2026
- RAGアーキテクチャと堅牢性: 設計空間の全体像 15/02/2026
- RAG完全サーベイ: 基礎から最先端まで進化の全体像 15/02/2026
- 論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク 15/02/2026