Archives

2026

16 / 05 論文解説: Towards Efficient Multi-LLM Inference — ルーティング vs 階層的推論の体系的比較
16 / 05 INFOCOM 2026論文解説: セマンティックキャッシュによる低コストLLMサービング — オフライン学習からオンライン適応へ
16 / 05 論文解説: TensorOpera Router (PolyRouter) — kNN・MLP・BERTによるマルチモデルLLMルーティング
16 / 05 Portkeyテックブログ解説: Gateway 2.0 — 1日1兆トークンを処理するAIゲートウェイのフルOSS化
16 / 05 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference — LLMルーティング手法の体系的サーベイ
15 / 05 Mem0ブログ解説: State of AI Agent Memory 2026 - エージェントメモリの産業動向と技術分析
15 / 05 NeurIPS 2025論文解説: A-MEM - Zettelkasten方式によるLLMエージェントの動的メモリ組織化
15 / 05 論文解説: Agentic Memory - 強化学習によるLLMエージェントの統合メモリ管理
15 / 05 ACL 2024論文解説: Evaluating Very Long-Term Conversational Memory of LLM Agents
15 / 05 論文解説: E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory
12 / 05 長時間実行エージェントのための効果的なハーネス設計 — Anthropicの実践知見
12 / 05 論文解説: ソフトウェアエンジニアリングにおけるLLMプロンプティングの報告ガイドライン
12 / 05 Anthropic Research解説: Bloom — 行動評価を自動生成するオープンソースフレームワーク
12 / 05 論文解説: マルチエージェントシステムのオーケストレーション — アーキテクチャ・プロトコル・エンタープライズ導入
12 / 05 AWS Prescriptive Guidance解説: プロンプト・エージェント・モデルのライフサイクル管理
12 / 05 論文解説: DAAO — 難易度適応型エージェントオーケストレーションによるクエリ特化マルチエージェントワークフロー
12 / 05 Braintrust解説: プロンプトバージョニングのベストプラクティス — 本番運用を壊さないイテレーション手法
12 / 05 Anthropicのマルチエージェントリサーチシステム: オーケストレータ・ワーカーパターンの設計と運用
12 / 05 論文解説: A Taxonomy of AgentOps for Language Model Agents
12 / 05 論文解説: From Agent Loops to Structured Graphs — LLMエージェント実行のスケジューラ理論的フレームワーク
11 / 05 論文解説: Llumnix - LLMサービングのための動的スケジューリングとライブマイグレーション
11 / 05 Meta Engineering解説: LLM推論スケーリングにおけるテンソル・コンテキスト・エキスパート並列化
11 / 05 論文解説: PowerInfer - コンシューマGPUでの高速LLM推論エンジン
11 / 05 論文解説: DistServe - Prefill/Decode分離によるLLMサービングのGoodput最適化
11 / 05 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
10 / 05 論文解説: APIGen — 検証可能なFunction Callingデータセット自動生成パイプライン
10 / 05 論文解説: Seal-Tools — ネスト関数呼び出しを含むツール学習データセットと3次元評価
10 / 05 論文解説: API-Bank — ツール拡張LLMの3段階ベンチマーク
10 / 05 論文解説: NexusRaven — Function Calling特化オープンソースLLMの設計と評価
10 / 05 Vercel AI SDK 6解説: エージェント抽象化と型安全なFunction Callingフレームワーク
09 / 05 論文解説: TurboRAG — KVキャッシュ事前計算によるRAG推論高速化
09 / 05 GPT-5.5のreasoning.effortとツール呼び出し最適化の技術解説
09 / 05 AgentCore Optimization解説: エージェント品質の自動改善ループ
09 / 05 論文解説: Reasoning Under Adaptive Budgets — LLMの推論効率化サーベイ
09 / 05 Amazon Bedrock レイテンシ最適化推論の実践ガイド解説
09 / 05 AlloyDB ScaNNインデックスの内部構造と性能分析
09 / 05 論文解説: Cost-Effective, Low Latency Vector Search with Azure Cosmos DB
09 / 05 論文解説: RaBitQ — 理論保証付き1ビット量子化によるベクトル検索高速化
09 / 05 論文解説: Not All Indexes Are Equal — 10億スケールベクトル検索インデックスの実測評価
09 / 05 論文解説: Filtered-DiskANN — フィルタ付きベクトル検索のためのグラフアルゴリズム
08 / 05 AWS技術解説: SageMaker HyperPodの階層型KVキャッシュとインテリジェントルーティング
08 / 05 NVIDIA技術解説: LLM推論コストベンチマーキング — TCO算出からPareto最適化まで
08 / 05 Anthropic API解説: トークン節約アップデート — キャッシュ・ツール効率化・レート制限最適化
08 / 05 論文解説: RACE — LLM推論パイプラインのコスト事前予測フレームワーク
08 / 05 ICLR 2024論文解説: FastGen — プロファイリング駆動の適応的KVキャッシュ圧縮
07 / 05 論文解説: ExecutionAgent — LLMエージェントによる任意プロジェクトのテスト自動実行
07 / 05 論文解説: Judging the Judges — LLM-as-Judgeにおけるポジションバイアスの体系的研究
07 / 05 ICLR 2025論文解説: JudgeBench — LLM評価者自体の信頼性を問うベンチマーク
07 / 05 論文解説: InferAct — LLMエージェントの安全なアクション推論と事前評価
07 / 05 論文解説: A Survey on LLM-as-a-Judge — LLM評価者の体系的サーベイ
05 / 05 論文解説: MemoryOS — OS設計に着想した3層階層メモリ管理システム
05 / 05 論文解説: 再帰的要約によるLLMの長期対話メモリ実現
05 / 05 論文解説: Mem0 — プロダクション対応のスケーラブルLLM長期メモリ層
05 / 05 Anthropicブログ解説: AIエージェントのための効果的なコンテキストエンジニアリング
05 / 05 論文解説: MemGPT — LLMをオペレーティングシステムとして捉える仮想コンテキスト管理
04 / 05 EMNLP 2024論文解説: LLMのツール利用アラインメント — H2A原則による安全なエージェント設計
04 / 05 Anthropicエンジニアリングブログ解説: AIエージェントのための効果的なツール設計
04 / 05 論文解説: Gorilla — 大規模APIとLLMを接続するRetrieval-Aware Training
04 / 05 論文解説: ToolLLM — 16000以上の実世界APIをLLMに習得させるフレームワーク
04 / 05 論文解説: SWE-agent — Agent-Computer Interface設計がソフトウェアエンジニアリングエージェントの性能を決定する
03 / 05 NVIDIA技術ブログ解説: LLM推論最適化の全体像 — KVキャッシュからSpeculative Decodingまで
03 / 05 論文解説: CacheGen — KVキャッシュ圧縮とストリーミングで長文コンテキストのLLM推論を高速化
03 / 05 論文解説: Mixture-of-Agents — 複数LLM協調による品質向上フレームワーク
03 / 05 論文解説: CachedAttention — マルチターン会話のKVキャッシュ階層管理でLLM推論コストを最大69%削減
03 / 05 論文解説: PagedAttention — LLM推論のKVキャッシュメモリ管理を変革した仮想メモリ方式
03 / 05 ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs
03 / 05 論文解説: SGLang — RadixAttentionによるLLMプレフィックスキャッシュの自動最適化
03 / 05 論文解説: FrugalGPT — LLMカスケードによるコスト98%削減フレームワーク
03 / 05 論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference
03 / 05 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク
02 / 05 論文解説: S-LoRA — 数千のLoRAアダプタを同時サービングするメモリ管理手法
02 / 05 Google Cloud解説: llm-d — vLLMをKubernetes-nativeな分散推論に拡張するオープンソースプロジェクト
02 / 05 論文解説: DistServe — Prefill/Decode分離によるLLMサービングのGoodput最適化
02 / 05 Meta Engineering解説: Scaling LLM Inference — Tensor/Context/Expert Parallelismの革新
02 / 05 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
01 / 05 論文解説: AgentSquare - モジュール設計空間でのLLMエージェント自動探索
01 / 05 論文解説: τ-bench - Tool-Agent-User Interaction Benchmark
01 / 05 Anthropicブログ解説: Scaling Managed Agents - Brain/Hands/Session分離アーキテクチャ
01 / 05 Anthropicブログ解説: Effective Harnesses for Long-Running Agents
01 / 05 LangChainブログ解説: Tuning Deep Agents to Work Well with Different Models
30 / 04 vLLM公式ブログ解説: Nemotron 3 Nano Omniの高効率マルチモーダル推論デプロイ
30 / 04 論文解説: BioEmu — 拡散モデルによるタンパク質平衡アンサンブルのスケーラブルなエミュレーション
30 / 04 論文解説: Inference Scaling for Long-Context RAG
30 / 04 論文解説: RT-2 ─ Web知識をロボット制御に転移するVision-Language-Actionモデル
30 / 04 論文解説: Sleeping Competing Bandits — Dueling Banditのsleeping拡張とregret解析
30 / 04 論文解説: Near-optimal Per-Action Regret Bounds for Sleeping Bandits — 行動ごとの最適regret保証
30 / 04 論文解説: Online Combinatorial Optimization with Stochastic Decision Sets and Adversarial Losses — Sleeping組合せ最適化の原点
30 / 04 論文解説: Follow-the-Perturbed-LeaderによるBest-of-Both-Worlds保証 — Tsallis摂動の理論と組合せバンディットへの応用
30 / 04 NVIDIA公式技術ブログ解説: Nemotron 3 Nano Omniのマルチモーダルエージェント推論アーキテクチャ
30 / 04 Anthropic Engineering解説: マルチエージェント研究システムの構築
30 / 04 論文解説: AI手法 vs 分子動力学シミュレーション — cryptic pocket検出の定性・定量比較
30 / 04 論文解説: Online Combinatorial Optimization with Sleeping Arms — CATアルゴリズムによるregret改善
30 / 04 論文解説: Octo ─ オープンソース汎用ロボットポリシーの設計と実践
30 / 04 論文解説: Scaling LLM Test-Time Compute Optimally
30 / 04 論文解説: Jamba — Transformer-Mamba-MoEハイブリッド言語モデルの設計原理
30 / 04 論文解説: Diffusion Policy ─ 拡散過程によるロボット行動生成の基盤技術
30 / 04 ICML 2024論文解説: AlphaFlow — フローマッチングによるタンパク質構造アンサンブル生成
30 / 04 論文解説: AFsample2 — MSAカラムマスキングによるAlphaFold2の構造多様性拡張
30 / 04 論文解説: Test-Time Strategies for Agentic RAG
30 / 04 論文解説: OpenVLA ─ オープンソースVision-Language-Actionモデルの設計と実践
30 / 04 論文解説: Mamba — 選択的状態空間モデルによる線形時間シーケンスモデリング
30 / 04 論文解説: Misspecified Gaussian Process Bandit Optimization
30 / 04 論文解説: Transfer Learning for Bayesian Optimization on Heterogeneous Search Spaces
30 / 04 論文解説: Pre-trained Gaussian Processes for Bayesian Optimization (HyperBO)
30 / 04 論文解説: Practical Transfer Learning for Bayesian Optimization
30 / 04 論文解説: A-RAG — Agentic Retrieval-Augmented Generation
30 / 04 論文解説: Improved Regret Bounds for Bayesian Optimization with Transfer Learning
30 / 04 論文解説: Nemotron-H — Mamba-Transformerハイブリッドアーキテクチャの設計と効率化
30 / 04 論文解説: π0 ─ Vision-Language-Action Flow Modelによる汎用ロボット制御
30 / 04 論文解説: AISAR — AlphaFold2とNMRの統合による隠れたタンパク質構造状態の解明
29 / 04 ProjectDiscovery事例解説: プロンプトキャッシュ最適化でLLMコスト59%削減を達成した実装戦略
29 / 04 NVIDIA TensorRT-LLM解説: KV Cache Early Reuseによるシステムプロンプト共有でTTFT 5倍高速化
29 / 04 Google OR-Tools Vehicle Routing Solver: 制約プログラミングとヒューリスティック探索による汎用VRPソルバー
29 / 04 AWS公式ブログ解説: Amazon Bedrock Agentsカスタムオーケストレーターの設計と実装
29 / 04 Anthropic公式ガイド解説: 効果的なAIエージェント設計の7パターン
29 / 04 論文解説: Prompt Cache — モジュラーアテンション再利用による低レイテンシ推論
29 / 04 論文解説: SGLang RadixAttention — Radix Treeによる自動KV Cache共有でLLMサービングを高速化
29 / 04 論文解説: CacheBlend — RAGシステム向けKV Cache融合による高速LLMサービング
29 / 04 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション基盤
29 / 04 論文解説: ReWOO — 観察なし推論による効率的なLLMツール並列実行
28 / 04 論文解説: LLM-based Automated Code Review — 87本のメタ分析から見えるファインチューニングの有効性
28 / 04 論文解説: SWE-LoRA — LoRAベースのポリシー改良によるコスト効率的ソフトウェアエンジニアリングエージェント
28 / 04 論文解説: MoELoRA — LoRAアダプタへのMoEルーティング導入によるパラメータ効率的ファインチューニングの拡張
28 / 04 論文解説: MoE-LoRA — MoEモデルのエキスパート層に特化したパラメータ効率的ファインチューニング
28 / 04 論文解説: Data-efficient LLM Fine-tuning for Code Generation
27 / 04 論文解説: GASP — Guided Asymmetric Self-Play for Continued Improvement of LLMs
27 / 04 論文解説: CoALA — 認知科学に基づくLLMエージェントのメモリアーキテクチャ分類体系
27 / 04 論文解説: SPC — Evolving Self-Play Critic via Adversarial Games for LLM Reasoning
27 / 04 論文解説: Generative Agents — 自然言語メモリストリームによる信頼性の高い自律エージェント
27 / 04 論文解説: DeepSeek-Prover-V2 — サブゴール分解とRLによる形式定理証明の最前線
27 / 04 NeurIPS 2025論文解説: A-Mem — Zettelkasten方式によるLLMエージェントの自律型メモリ管理
27 / 04 論文解説: SPIN — Self-Play Fine-Tuning Converts Weak Language Models to Strong Language Models
27 / 04 論文解説: MemGPT — LLMをOSとして捉える階層型メモリアーキテクチャ
27 / 04 AWS公式ブログ解説: Amazon Bedrock AgentCoreエピソディックメモリによるエージェントの経験学習
27 / 04 論文解説: STP — Self-play LLM Theorem Provers with Iterative Conjecturing and Proving
26 / 04 Google Research公式ブログ解説: Towards a Science of Scaling Agent Systems
26 / 04 Google DeepMind公式解説: Gemini 3.1 Pro — 3段階推論と16ベンチマーク分析
26 / 04 Anthropic Research解説: 推論モデルのChain-of-Thoughtは思考過程を忠実に反映していない
26 / 04 論文解説: RouterBench — LLMルーティング戦略のベンチマーク評価
26 / 04 ICLR 2024論文解説: Ring Attention — 複数GPU間でのブロックワイズ分散アテンションによる超長コンテキスト処理
26 / 04 OpenAI解説: Harness Engineering — Codexエージェントでの100万行コード生成の実践
26 / 04 AWS公式ブログ解説: Evaluating AI Agents — Amazonにおけるエージェント評価の実践知見
26 / 04 Anthropic公式ブログ解説: How we built our multi-agent research system
26 / 04 ACL 2025論文解説: HalluLens — LLMハルシネーション評価の統一ベンチマーク
26 / 04 論文解説: SafeChain — 長Chain-of-Thought推論の安全性分析と安全性訓練データセット
26 / 04 ICLR 2025論文解説: Jamba — Transformer-Mambaハイブリッドアーキテクチャの設計と実装
26 / 04 Martin Fowler解説: Harness Engineering for Coding Agents — Guide/Sensorパターンの実践的設計
26 / 04 Anthropic公式ブログ解説: Claude Opus 4.7 — 高解像度ビジョンとアダプティブ推論の技術詳細
26 / 04 論文解説: Safety Tax — 安全性アラインメントが大規模推論モデルの推論能力を低下させるトレードオフ
26 / 04 論文解説: Evaluating LLMs as Judges — LLM-as-judgeの正確性・位置バイアス・一貫性の体系的評価
26 / 04 ICLR 2025論文解説: Differential Transformer — ノイズキャンセリング発想のアテンション機構
26 / 04 論文解説: MetaGPT — Meta Programming for A Multi-Agent Collaborative Framework
26 / 04 DeepSeek V4-Pro解説: 1.6Tパラメータ MoEアーキテクチャと圧縮スパースアテンションの技術詳細
26 / 04 Anthropic公式ブログ解説: Building Effective AI Agents — ワークフロー/エージェント設計パターンと評価手法
26 / 04 論文解説: Skills for Scalable AI Agents — スキルのライフサイクルと相転移現象
26 / 04 論文解説: SafeThink — 推論チェーン初期の数ステップ介入で安全性を回復するinference-time防御
26 / 04 論文解説: Enhancing Multi-Server MCP Interactions Through Context-Aware Server Collaboration
26 / 04 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる93.3%のKVキャッシュ削減
26 / 04 論文解説: Large Language Model based Multi-Agents — A Survey of Progress and Challenges
26 / 04 Anthropic Engineering解説: 長時間実行エージェントの効果的なハーネス設計パターン
26 / 04 ICLR 2025論文解説: Relaxed Recursive Transformers — レイヤー共有とLoRAによるモデル圧縮
26 / 04 論文解説: Think, But Don't Overthink — LLM推論における過剰思考の抑制と動的トークン予算制御
26 / 04 論文解説: MemGPT — 仮想メモリ管理に着想を得たLLMエージェントの無制限セッション維持
26 / 04 AWS公式ブログ解説: AgentCore Runtimeにおけるステートフル MCP クライアント機能の技術詳細
26 / 04 論文解説: Scaling LLM Test-Time Compute with REPL — コード実行ループによる推論スケーリング
26 / 04 Prime Intellect解説: Recursive Language Models — 2026年の推論パラダイムとなるか
26 / 04 AWS公式ブログ解説: AgentCore RuntimeのSession Storageとシェルコマンド実行による状態永続化
26 / 04 OpenAI公式ブログ解説: GPT-5.5 — 完全再学習ベースモデルのアーキテクチャと性能分析
26 / 04 AWS公式ブログ解説: AgentCore Runtimeのセキュアなエージェント実行基盤とmicroVM分離モデル
26 / 04 論文解説: Multi-Agent Systems — From Classical Paradigms to Large Foundation Model-Enabled Futures
26 / 04 論文解説: Externalization in LLM Agents — Memory・Skills・Protocols・Harnessの統一的分類体系
26 / 04 論文解説: FlashAttention-4 — Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling
26 / 04 論文解説: Recursive Language Models — REPL環境による再帰的推論でコンテキストウィンドウの100倍超を処理
26 / 04 論文解説: CustomerServiceBench — カスタマーサービス対話におけるLLM評価ベンチマーク
26 / 04 論文解説: SafeMLRM — マルチモーダル推論モデルの安全性を初めて体系的に評価したフレームワーク
26 / 04 論文解説: PyramidKV―層ごとの注意パターンに基づく動的KVキャッシュ圧縮
26 / 04 論文解説: SnapKV―LLMはprefill時に何が重要か既に知っている
26 / 04 論文解説: Attention Sinkによる効率的なストリーミングLLM推論
26 / 04 論文解説: H2O ― Heavy-Hitter Oracleによる大規模言語モデルの効率的KVキャッシュ管理
26 / 04 ICML 2019論文解説: Gumbel-Top-k Trick ― 非復元サンプリングの微分可能な実現
25 / 04 論文解説: ReST-RAG — プロセス監督MCTSによるRAG自己学習
25 / 04 論文解説: OmegaPRM — 分割統治MCTSによる自動プロセス監督
25 / 04 論文解説: Search-R1 — 強化学習による検索エンジン活用型LLM推論
25 / 04 NeurIPS 2024論文解説: ReST-MCTS* — プロセス報酬ガイド木探索によるLLM自己学習
25 / 04 論文解説: Let's Verify Step by Step — プロセス監督による数学的推論の改善
24 / 04 Scale AI: SWE-Bench Pro — Raising the Bar for Agentic Coding
24 / 04 論文解説: Measuring Leakage in LLM-based Code Generation Benchmarks
24 / 04 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering
24 / 04 OpenAI: Why we no longer evaluate SWE-bench Verified — データ汚染と飽和の監査報告
24 / 04 OpenAI解説: Orchestrating Agents — ルーティンとハンドオフによるエージェント協調パターン
24 / 04 論文解説: SWE-bench Pro — Can AI Agents Solve Long-Horizon Software Engineering Tasks?
24 / 04 論文解説: AIOS — LLMエージェントのためのオペレーティングシステム
24 / 04 論文解説: TaskWeaver — コードファーストで実現するステートフルなエージェント実行基盤
24 / 04 論文解説: Agents — SOPベースの宣言的ステートマシンによる自律エージェントフレームワーク
24 / 04 EMNLP 2024論文解説: FlowBench — ワークフロー指示に基づくLLMエージェント計画能力の包括的ベンチマーク
23 / 04 LangGraph Platform GA解説: ステートフルAIエージェントの本番デプロイ基盤
23 / 04 論文解説: Router-R1 — 強化学習によるマルチLLMルーティングと集約
23 / 04 論文解説: Model Context Protocol (MCP) — アーキテクチャとセキュリティの全体像
23 / 04 論文解説: Llama Guard — LLMベースの入出力安全性ガードレール
23 / 04 論文解説: GPT Semantic Cache — LLM APIコスト削減のためのセマンティックキャッシュ手法
21 / 04 論文解説: MetaGPT — SOPベースのマルチエージェント協調フレームワーク
21 / 04 論文解説: ToolRL — 報酬設計だけでLLMのツール使用能力を獲得する
21 / 04 Google Research解説: マルチエージェントスケーリングの科学 — いつ・なぜエージェントシステムは機能するか
21 / 04 Anthropic解説: Building Effective Agents — エージェント設計パターンの実践ガイド
21 / 04 論文解説: ToolLLM — 16000以上の実世界APIをLLMに習得させるフレームワーク
20 / 04 Scale AI SWE-Bench Pro解説: データ汚染耐性を備えた次世代コーディングベンチマークの設計と結果
20 / 04 論文解説: ルーティングとカスケードの統合フレームワーク — 理論最適性の証明と実践
20 / 04 論文解説: Data Contamination Through the Lens of Time — LLMベンチマーク汚染の時系列分析
20 / 04 論文解説: BEST-Route — Azure AI Model Routerを支えるルーティング×Best-of-N最適化
20 / 04 論文解説: EvalPlus — コード生成LLMの厳密な評価フレームワーク
20 / 04 論文解説: Evaluating Large Language Models Trained on Code — HumanEvalとpass@kの原点
20 / 04 論文解説: LiveBench — データ汚染に耐性を持つ動的LLMベンチマーク
20 / 04 論文解説: BigCodeBench — 多様なAPI呼び出しと複雑な指示によるコード生成の総合評価
20 / 04 論文解説: Hybrid LLM — 品質制約付きコスト効率的クエリルーティング
20 / 04 論文解説: LiveCodeBench — データ汚染フリーなLLMコード生成の継続的評価
20 / 04 論文解説: GPQA — 大学院レベルのGoogle-Proof質問応答ベンチマーク
20 / 04 論文解説: FrugalGPT — LLMカスケードによるコスト最大98%削減フレームワーク
20 / 04 論文解説: RouteLLM — 人間嗜好データによるLLMルーティングの学習
20 / 04 論文解説: MMLU-Pro — より頑健で挑戦的なマルチタスク言語理解ベンチマーク
20 / 04 論文解説: SWE-bench — 実世界GitHubイシューによるLLMコード修正能力の評価
19 / 04 論文解説: Benchmarking Agentic Workflow Generation — LLMワークフロー計画能力の体系的評価
19 / 04 論文解説: MetaGPT -- SOPベースのマルチエージェント協調フレームワーク
19 / 04 論文解説: ReAct — LLMにおける推論と行動の統合
19 / 04 OpenAI解説: Testing Agent Skills Systematically — AIエージェントのスキル評価を体系化する
19 / 04 LangChain解説: Building LangGraph — エージェントランタイムをFirst Principlesで設計する
18 / 04 論文解説: Long Context vs. RAG — 8モデル×4リトリーバ×6ベンチマークによる体系的比較評価
18 / 04 Manus Engineering解説: AIエージェントのためのContext Engineering — 本番環境で得た実践的教訓
18 / 04 論文解説: マルチエージェントLLMアーキテクチャの金融文書処理ベンチマーク — 4パターンの精度・コスト比較
18 / 04 論文解説: Context Length Alone Hurts — 完全な検索でもコンテキスト長がLLM性能を劣化させる
18 / 04 論文解説: LLMLingua — 小型LMによるプロンプト圧縮でAPI推論コストを削減する手法
18 / 04 ICML 2024論文解説: Dynamic Memory Compression — オンラインKVキャッシュ圧縮によるLLM推論高速化
18 / 04 論文解説: Compress to Impress — 長期会話における圧縮メモリの活用
18 / 04 Anthropic Engineering解説: Effective Context Engineering for AI Agents
18 / 04 論文解説: RULER — Needle-in-a-Haystackを超えた長文脈LLMの真の限界を測るベンチマーク
18 / 04 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理アーキテクチャ
17 / 04 ICML 2024論文解説: KIVI — チューニング不要のKVキャッシュ2bit非対称量子化
17 / 04 論文解説: CacheBlend — RAG向けKVキャッシュ融合によるLLM推論高速化
17 / 04 NeurIPS 2024論文解説: SnapKV — 生成前にKVキャッシュの重要トークンを選択する手法
17 / 04 論文解説: vLLM — PagedAttentionによるKVキャッシュメモリ管理の革新
17 / 04 論文解説: SGLang — RadixAttentionによるLLMプレフィックスキャッシュの自動再利用
16 / 04 Anthropic公式ブログ解説: Code Execution with MCP — コード実行によるエージェント効率の98.7%トークン削減
16 / 04 Google公式ブログ解説: Agent2Agent (A2A) プロトコル — エージェント間相互運用の新標準
16 / 04 NeurIPS 2024論文解説: iAgents — 情報非対称下でのマルチエージェント自律協調とInfoNavメカニズム
16 / 04 ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を通信トポロジごとに定量評価
16 / 04 論文解説: A Survey of AI Agent Protocols — MCP・A2Aを含むエージェントプロトコルの体系的分類
15 / 04 論文解説: τ-bench — ツール・エージェント・ユーザー三者間インタラクションの評価ベンチマーク
15 / 04 論文解説: Mem0 — 本番運用を見据えたAIエージェント長期記憶レイヤーの設計と評価
15 / 04 ICML 2024論文解説: Larimar — 脳着想エピソード記憶によるLLMの動的知識更新
15 / 04 論文解説: Judging LLM-as-a-Judge — MT-BenchとChatbot Arenaによる自動評価の体系的検証
15 / 04 論文解説: MemGPT — LLMをOSとして捉える仮想コンテキスト管理
14 / 04 論文解説: AdaptOrch — LLM性能収束時代のタスク適応型マルチエージェントオーケストレーション
14 / 04 論文解説: The Orchestration of Multi-Agent Systems — アーキテクチャ・プロトコル・企業導入
14 / 04 Semantic Kernel マルチエージェントオーケストレーション: 5つの協調パターンと統一API設計
14 / 04 Microsoft Agent Framework 1.0: Semantic KernelとAutoGenを統合したマルチエージェント基盤
14 / 04 Semantic Kernel Process Framework: AIをビジネスプロセスに統合するイベント駆動アーキテクチャ
13 / 04 論文解説: τ-bench — ツール・エージェント・ユーザの3者インタラクションベンチマーク
13 / 04 ACL 2025論文解説: Meta-Tool — オープンワールドFunction Callingの実現
13 / 04 論文解説: MCPAgentBench — MCPツール使用能力のリアルワールドベンチマーク
13 / 04 論文解説: ToolACE — 高品質Function Callingデータの自動生成パイプライン
13 / 04 論文解説: MCP Tool Descriptions Are Smelly! — MCPツール記述の品質問題と改善手法
12 / 04 ICML 2024論文解説: AnyTool — 大規模API環境における自己反省型エラーリカバリエージェント
12 / 04 論文解説: xLAM — Function Calling特化のLarge Action Modelファミリー
12 / 04 論文解説: Gorilla — 大規模API呼び出しにおけるLLMのハルシネーション抑制と検索拡張ファインチューニング
12 / 04 Anthropic Research解説: Building Effective Agents — LLMエージェントのツール活用設計パターン
12 / 04 ICML 2024論文解説: LLMCompiler — LLMの並列Function Callingを最適化するコンパイラフレームワーク
11 / 04 NeurIPS 2024論文解説: Chain of Agents — マルチエージェント協調による長文コンテキスト処理
11 / 04 論文解説: Mem0 — スケーラブルな長期記憶でAIエージェントのコンテキスト消費を97%削減
11 / 04 Microsoft Tech Blog解説: LLM推論最適化スタック — エンタープライズ向け優先順位付きプレイブック
11 / 04 論文解説: OPRO — LLM自身をプロンプト最適化器として活用する手法
11 / 04 Anthropic公式ブログ解説: AIエージェントのための実践的コンテキストエンジニアリング
11 / 04 論文解説: Lost in the Middle — LLMの長文コンテキスト活用における位置バイアスの実証分析
11 / 04 論文解説: DSPy — 宣言的LLMパイプラインの自動プロンプト最適化フレームワーク
11 / 04 論文解説: TALE — Token-Budget-Aware LLM Reasoning
11 / 04 論文解説: TokenSelect — 動的トークンレベルKVキャッシュ選択による長文推論の高速化
11 / 04 論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
10 / 04 Google AI Co-Scientist — マルチエージェントAIによる創薬研究の加速
10 / 04 論文解説: ESM3 — 5億年の進化をシミュレートするタンパク質言語モデル
10 / 04 論文解説: 完全原子抗体-抗原ドッキングと設計の統合 — 反復的構造精緻化アプローチ
10 / 04 論文解説: AntiFold — 逆折り畳みによる抗体構造ベース配列設計の改良
10 / 04 論文解説: DiffAb — 拡散モデルによる抗原特異的抗体設計と最適化
09 / 04 Mem0公式ブログ解説: State of AI Agent Memory 2026 — メモリアーキテクチャの本番運用比較
09 / 04 論文解説: Memory in the Age of AI Agents — エージェントメモリの3次元分類法
09 / 04 論文解説: Survey on Evaluation of LLM-based Agents — エージェント評価手法の体系的分類
09 / 04 論文解説: Memory for Autonomous LLM Agents — エージェントメモリの機構・評価・フロンティア
09 / 04 AWS公式ブログ解説: Amazon Bedrock AgentCore Evaluationsによるエージェント品質の自動評価
08 / 04 LangChain公式ブログ解説: エージェントフレームワークとエージェントオブザーバビリティの関係
08 / 04 論文解説: DebugBench — LLMのデバッグ能力を18カテゴリで体系的に評価するベンチマーク
08 / 04 論文解説: MINT — ツール使用とフィードバックを含むマルチターンLLM評価ベンチマーク
08 / 04 論文解説: AgentMonitor — LLMマルチエージェントのリアルタイム監視・修正フレームワーク
08 / 04 Anthropic Engineering解説: AIエージェント評価（Evals）の体系的設計手法
07 / 04 ICML 2024論文解説: KIVI — チューニング不要の非対称2bit KVキャッシュ量子化
07 / 04 論文解説: Mooncake — KVキャッシュ中心の分離型LLMサービングアーキテクチャ
07 / 04 NVIDIAブログ解説: TensorRT-LLMにおけるKVキャッシュ再利用の新最適化
07 / 04 論文解説: CacheBlend — RAGワークロードにおけるKVキャッシュ再利用の新手法
07 / 04 論文解説: Marconi — Hybrid LLM時代のPrefix Caching システム
06 / 04 論文解説: Gorilla — Retrieval-Augmented TrainingによるLLMのAPI��び出し精度向上
06 / 04 論文解説: ToolLLM — 16,000以上の実世界APIをLLMに習得させるフレームワーク
06 / 04 NeurIPS 2024論文解説: AvaTaR — 対照推論によるLLMエージェントのツール使用最適化
06 / 04 論文解説: ToolACE — LLM Function Callingの精度を合成データで改善する
06 / 04 Anthropicエンジニアリングブログ解説: Code execution with MCP — MCPコード実行パターンによるトークン効率化
05 / 04 論文解説: On the Resilience of LLM-Based Multi-Agent Collaboration with Faulty Agents
05 / 04 論文解説: Rethinking the Reliability of Multi-agent System — ビザンチン障害耐性の視点から
05 / 04 Temporal社ブログ解説: From AI Hype to Durable Reality — AIエージェントに分散システムの規律を
05 / 04 論文解説: Where LLM Agents Fail and How They can Learn From Failures
05 / 04 論文解説: Towards a Science of AI Agent Reliability
04 / 04 論文解説: Generative Semantic Communication — 生成AIによるセマンティック通信の統合的フレームワーク
04 / 04 論文解説: Channel-Aware Vector Quantization — 離散チャネル上のロバストなセマンティック通信
04 / 04 論文解説: D²-JSCC — ベクトル量子化によるデジタル深層結合ソース・チャネル符号化
04 / 04 論文解説: SSCCNet — LLM時代に分離符号化が再び最適解となる理由
04 / 04 EMNLP 2025論文解説: Breaking Agents — LLMエージェントの機能不全増幅攻撃と防御
04 / 04 論文解説: AgentScope — プロダクション対応マルチエージェントプラットフォームの障害耐性設計
04 / 04 論文解説: CRITIC — LLMの外部ツール検証による自己修正フレームワーク
04 / 04 論文解説: Agent Design Pattern Catalogue — ファウンデーションモデルエージェントの設計パターン体系
04 / 04 論文解説: Cache-to-Cache — LLM間KV-Cache直接転送によるセマンティック通信
04 / 04 ICML 2025論文解説: LLMマルチエージェント協調における障害耐性の研究
03 / 04 論文解説: Janus — 視覚エンコーダ分離による統合マルチモーダル理解・生成
03 / 04 論文解説: LatentLM — Next-Token Diffusionによるマルチモーダル潜在言語モデリング
03 / 04 論文解説: Apollo — 大規模マルチモーダルモデルにおける動画理解の体系的探索
03 / 04 論文解説: InternLM-XComposer2.5-OmniLive — リアルタイムストリーミングマルチモーダルシステム
03 / 04 論文解説: Qwen2.5-Omni — テキスト・画像・音声・動画の統合マルチモーダルモデル
02 / 04 AG-UIプロトコル解説: エージェント時代のフロントエンド通信標準
02 / 04 論文解説: Sarathi-Serve — チャンクPrefillによるTTFT/TBT同時最適化
02 / 04 論文解説: Speculative Sampling — ドラフトモデルによるLLMデコード高速化
02 / 04 論文解説: DistServe — Prefill/Decode分離によるTTFT最適化LLMサービング
02 / 04 論文解説: Streaming, Fast and Slow — 認知負荷に応じたLLMストリーミング最適化
01 / 04 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論
31 / 03 NVIDIA cuVS解説: GPU加速ベクトル検索がRAG・推薦のインデックス構築を最大40倍高速化
31 / 03 論文解説: TextGrad — テキストによる自動微分フレームワーク
31 / 03 論文解説: LSM-VEC — LSMツリー型動的ベクトルインデックスでFreshDiskANN比5倍の書き込みスループット
31 / 03 論文解説: DSPy — 宣言的LM呼び出しを自己改善パイプラインにコンパイル
31 / 03 論文解説: WAS — RRFを超えるハイブリッド検索スコアリング手法とインデックス最適化
31 / 03 論文解説: SIMBA — バッチレベルビームサーチによるDSPyプログラムの推論時スケーリング
31 / 03 論文解説: グラフ型ベクトル検索の包括的実験評価 — HNSW・DiskANN・RoarGraph・ACORNを同一条件で比較
31 / 03 論文解説: MIPROv2 — ベイズ最適化による多段LLMプログラムの命令・デモ最適化
31 / 03 論文解説: GEPA — リフレクティブなプロンプト進化で強化学習を超える
31 / 03 論文解説: ACORN — フィルタ付きベクトル検索の精度を劇的に改善するグラフ探索アルゴリズム
30 / 03 論文解説: SemanticCacheQA — LLMセマンティックキャッシュの効率と精度を評価するベンチマーク
30 / 03 論文解説: Quantifying PII Leakage in LLMs — 三層PII分類とSILSメトリクスによるLLMプライバシーリスクの定量化
30 / 03 Semantic Kernelフィルター GA解説: .NETとPythonの3層フィルターアーキテクチャ
30 / 03 OpenTelemetry GenAI SIGが提唱するAIエージェント可観測性の標準化戦略
30 / 03 論文解説: Defeating Prompt Injections by Design — CaMeLアーキテクチャによる設計レベルのプロンプトインジェクション防御
29 / 03 論文解説: DeepSeek-V3 — MLA+MoE+FP8混合精度で671Bモデルを低コスト学習する技術詳細
29 / 03 ICCV 2019論文解説: Be Your Own Teacher — CNNにおける自己蒸留の先駆的研究
29 / 03 論文解説: Methods of Improving LLM Training Stability — QK-NormからRMSNormまでの学習安定化技法
29 / 03 論文解説: Self-RAG — 自己反省トークンによる適応的検索拡張生成
29 / 03 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化
29 / 03 論文解説: QLoRA — 4bit量子化とLoRAの組み合わせで65Bモデルを単一GPUでファインチューニング
29 / 03 WACV 2023論文解説: SDSSL — 中間層自己蒸留によるSelf-Supervised Learningの表現品質向上
29 / 03 NVIDIA Tech Blog解説: CUDA Graphsによるllama.cpp推論最適化 — カーネルローンチオーバーヘッドの体系的削減
29 / 03 論文解説: FlashAttention-2 — GPU並列性とワーク分割の改善によるAttention高速化
29 / 03 論文解説: GQA — Grouped-Query AttentionによるKVキャッシュ効率化とMHAからの変換手法
29 / 03 CVPR 2025論文解説: COSMOS — クロスモーダル自己蒸留によるVision-Language事前学習の改善
29 / 03 Cloudflare Tech Blog解説: Infire — Rust製LLM推論エンジンのエッジ最適化アーキテクチャ
29 / 03 論文解説: DINOv3 — Gram Anchoringによる密な特徴量の安定化と7Bパラメータ自己蒸留
29 / 03 論文解説: Gated Delta Networks — Delta Ruleとゲーティングで線形注意の連想記憶能力を改善する
29 / 03 論文解説: Direct Preference Optimization (DPO) — 報酬モデル不要のLLMアライメント手法
29 / 03 論文解説: DeepSeek-V2 — Multi-Head Latent Attentionによる KVキャッシュ93%削減の設計と実装
29 / 03 論文解説: PagedAttention — LLMサービングのKVキャッシュメモリ管理を仮想メモリ方式で最適化
29 / 03 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLMサービングを高効率化
29 / 03 論文解説: DINOv2 — ラベルなし自己教師あり学習で汎用視覚特徴量を獲得する大規模フレームワーク
29 / 03 論文解説: Orca — Iteration-Level Schedulingによる生成モデルサービングの革新
28 / 03 LLVM 20 SPIR-Vバックエンド公式昇格の技術的全貌：GlobalISelベースのGPUコンパイル統一基盤
28 / 03 論文解説: Agents Are Not Enough — 単一エージェントの限界とSociety of Agentsフレームワーク
28 / 03 ICLR 2025論文解説: Cascade Routing — LLMルーティングとカスケードの統合フレームワーク
28 / 03 ICML 2025論文解説: BFCL — Berkeley Function Calling Leaderboard
28 / 03 Microsoft Research解説: Agent-Pex — AIエージェントの自動評価・テスト生成ツール
28 / 03 GSoC 2025 ClangIRアップストリーミングの全貌：191PR・VectorType・ComplexType・例外処理
28 / 03 論文解説: FeatureBench — AIコーディングエージェントの新機能実装能力を測定するベンチマーク
28 / 03 論文解説: Pick and Spin — セルフホスト型LLMのマルチモデルオーケストレーション
28 / 03 Igalia社のRISC-V向けLLVMベクトルコード生成改善を読み解く：SPEC2017で9%のgeomean向上
28 / 03 Google Research解説: エージェントシステムのスケーリング科学 — マルチエージェントが機能する条件と失敗する条件の定量分析
28 / 03 論文解説: OneShield Privacy Guard — LLMプライバシーガードレールの実デプロイ比較分析
28 / 03 NeurIPS 2024論文解説: GTA — 実行可能ツールによる汎用ツールエージェントベンチマーク
28 / 03 テックブログ解説: NVIDIA AI Blueprint — コスト効率の高いLLMルーティング基盤
28 / 03 ArmのLLVM 20貢献を読み解く：Graviton 4でSPEC2017浮動小数点3%向上の技術的背景
28 / 03 Anthropic Engineering解説: マルチエージェント研究システムの設計と実装 — 単一エージェント比90.2%の性能向上を実現したアーキテクチャ
28 / 03 論文解説: SWE-agent — コーディングエージェントのためのインターフェース設計原則
28 / 03 論文解説: LAAFD — LLMエージェントによるFPGA設計自動化フレームワーク
28 / 03 論文解説: ChipNeMo — チップ設計ドメイン適応LLMの技術的詳細
28 / 03 論文解説: LLMによるGPUカーネル自動生成サーベイ — SFT・RL・マルチエージェント手法の体系的整理
28 / 03 論文解説: Agent-as-a-Judge — エージェントによるエージェント評価フレームワーク
28 / 03 テックブログ解説: 16並列Claudeエージェントで構築するCコンパイラ — Anthropicの大規模自律開発実験
28 / 03 論文解説: Reasoning Models Generate Societies of Thought — 推論モデル内部に自発的に創発する思考の社会
28 / 03 論文解説: AgentTool — マルチエージェントワークフローにおけるツール選択評価ベンチマーク
28 / 03 論文解説: A Reinforcement Learning Environment for Automatic Code Optimization in the MLIR Compiler
28 / 03 ICLR 2025論文解説: RouteLLM — 人間の選好データを活用したLLMルーティングフレームワーク
27 / 03 論文解説: Hardware Acceleration of LLMs — GPU・FPGA・ASIC・PIM横断サーベイ
27 / 03 論文解説: Automated Design of Agentic Systems — エージェント設計そのものを自動化する
27 / 03 AWSとCerebras WSE-3の協業: ディスアグリゲーテッド推論アーキテクチャの技術詳細
27 / 03 論文解説: AIDE — ツリー探索によるML実験自動化エージェント
27 / 03 NVIDIA Groq 3 LPX: SRAMファーストの低レイテンシ推論アクセラレータの技術詳細
27 / 03 論文解説: Agent Laboratory — LLMエージェントを研究アシスタントとして活用する
27 / 03 SkyPilotブログ解説: Karpathy's AutoResearchをGPUクラスタにスケーリングした結果
27 / 03 論文解説: LUT-LLM — ルックアップテーブルによるFPGA上のLLM推論高速化
27 / 03 論文解説: The AI Scientist — 完全自動オープンエンド科学的発見に向けて
27 / 03 論文解説: FlightLLM — FPGAによるLLM推論の完全マッピングフロー
25 / 03 Google Research解説: Titans + MIRAS — AIに長期記憶を与える統一フレームワーク
25 / 03 論文解説: vLLM-MLX — Apple Silicon統合メモリを活かしたLLM推論の高速化
25 / 03 論文解説: Mini-Omni — ストリーミング音声出力を実現する並列デコーディングLLM
25 / 03 NeurIPS 2024論文解説: MoE推論の効率化に向けた3つの最適化手法
25 / 03 ブログ解説: llama.cppによるMoEモデルのCPU+GPUハイブリッド推論最適化ガイド
25 / 03 Google Developers Blog解説: Gemini 2.0 Multimodal Live APIの技術的基盤と設計思想
25 / 03 論文解説: FluxMem — Beta混合モデルによる適応的メモリ構造選択フレームワーク
25 / 03 論文解説: HOBBIT — 混合精度エキスパートオフローディングによるMoE推論の高速化
25 / 03 OpenAI Realtime API解説: GPT-realtimeモデルによる本番環境向けリアルタイム音声エージェント
25 / 03 論文解説: Memori — セマンティックトリプルで実現する高精度・低コストLLMエージェント記憶層
25 / 03 論文解説: MoEモデルのSSDオフロードはエネルギー効率で有害か
25 / 03 論文解説: DeepSeekMoE — 細粒度エキスパート分割と共有エキスパートによるMoE効率化
25 / 03 論文解説: A-MAC — 5因子構造化判定によるLLMエージェントの適応的メモリ入力制御
25 / 03 論文解説: VITA-1.5 — GPT-4oレベルのリアルタイム映像×音声対話を7Bモデルで実現
25 / 03 論文解説: Gated Delta Networks — Mamba2とDelta Ruleの融合による線形注意の革新
25 / 03 論文解説: MoEオフロードによる大規模スパースモデルの高速推論
25 / 03 論文解説: FlashMoE - SSD I/Oボトルネックを解消するML基盤キャッシュ置換によるMoEエッジ推論
25 / 03 論文解説: Qwen3 Technical Report — MoEアーキテクチャとHybrid Thinkingの全容
25 / 03 論文解説: Titans — 推論時ニューラルメモリ更新による200万トークン超の長期記憶
25 / 03 論文解説: Moshi — 160msレイテンシを実現する全二重リアルタイム音声対話基盤モデル
24 / 03 論文解説: SelfCheckGPT — 外部知識不要のLLM幻覚検出手法
24 / 03 論文解説: MT-Bench — LLM-as-a-Judgeパラダイムの実証分析
24 / 03 論文解説: RGB Benchmark — RAGに必要な4能力の体系的評価
24 / 03 ACL 2024論文解説: RAGTruth — RAGシステムの幻覚検出コーパスと評価手法
24 / 03 論文解説: RAGAS — RAGパイプラインの自動評価フレームワーク
23 / 03 Anthropic解説: Code Execution with MCP — AIエージェントのトークン消費98.7%削減手法
23 / 03 論文解説: Adaptive Orchestration — マルチエージェントAIシステムの認知アーキテクチャ
23 / 03 論文解説: FlowBench — LLMエージェントのワークフロー型別評価ベンチマーク
23 / 03 論文解説: Tool-Augmented LLMs — 統合アーキテクチャと障害パターンのサーベイ
23 / 03 論文解説: MCP-Zero — LLMエージェントのための動的ツール発見と推薦
22 / 03 IJCAI 2024論文解説: Large Language Model based Multi-Agents — LLMマルチエージェントの進展と課題の包括的サーベイ
22 / 03 NeurIPS 2023論文解説: Toolformer — 言語モデルが自らツール使用を学習する自己教師あり手法
22 / 03 ACL 2025論文解説: MultiAgentBench — LLMマルチエージェントの協調・競争を評価するベンチマーク
22 / 03 論文解説: Multi-Agent Collaboration Mechanisms — LLMベースマルチエージェント協調メカニズムの体系的サーベイ
22 / 03 論文解説: AutoGen — マルチエージェント会話によるLLMアプリケーション構築フレームワーク
21 / 03 解説: PremAI RAG Evaluation — Metrics, Frameworks & Testing (2026)
21 / 03 論文解説: ARES — An Automated Evaluation Framework for Retrieval-Augmented Generation Systems
21 / 03 論文解説: PALADIN — 障害事例バンクによるLLMエージェントのツール障害自己修正フレームワーク
21 / 03 ICLR 2025論文解説: MMTEB — Massive Multilingual Text Embedding Benchmark
21 / 03 論文解説: Graph-Based Self-Healing Tool Routing — LLMエージェントのコスト効率を高めるグラフベース自己修復ルーティング
21 / 03 論文解説: Beyond Benchmarks — Evaluating Embedding Model Similarity for RAG Systems
21 / 03 NVIDIA NeMo Guardrails解説：Colang言語によるプログラマブルLLMガードレール実装
21 / 03 ICML 2024論文解説: LLMガードレールの体系的設計手法
21 / 03 論文解説: FrugalGPT — LLMコスト98%削減のカスケード戦略
21 / 03 論文解説: Llama Guard — LLMベース入出力ガードレールの設計と実装
21 / 03 AWSマルチテナント生成AIゲートウェイ：企業向けコスト追跡・テナント分離アーキテクチャ解説
21 / 03 論文解説: Reflexion — 言語エージェントのための言語的強化学習フレームワーク
21 / 03 論文解説: AgentPRM — プロセス報酬モデルによるLLMエージェントの段階的改善フレームワーク
21 / 03 論文解説: RAGAS — Automated Evaluation of Retrieval Augmented Generation
21 / 03 調査レポート解説: LangChain State of AI Agents 2025 — 1,340名調査に見るエージェント本番運用の実態
20 / 03 論文解説: Hybrid Agentic AI and Multi-Agent Systems in Smart Manufacturing — LLMエージェントと従来型MASの融合による処方的保全
20 / 03 論文解説: Why Do Multi-Agent LLM Systems Fail? — マルチエージェントLLMシステムの失敗分類学
20 / 03 論文解説: FD-LLM — 振動センサーデータからの故障診断に特化したLLMフレームワーク
20 / 03 論文解説: Flow-of-Action — SOPに基づくLLMマルチエージェント根本原因分析システム
20 / 03 論文解説: Exploring LLM-based Frameworks for Fault Diagnosis — HVACシステムにおけるマルチLLM故障診断の実証的評価
20 / 03 NVIDIA RAG Blueprint解説: Kubernetes上のエンタープライズRAGコンポーネント水平オートスケーリング
20 / 03 JetBrains Research解説: LLMエージェントのコンテキスト管理 — Observation MaskingとLLM要約の比較
20 / 03 論文解説: Gemini Embedding — 250以上の言語に対応する汎用テキスト埋め込みモデル
20 / 03 論文解説: CRAG — 検索品質を自己評価・修正するCorrective RAG
20 / 03 Semantic Kernel Memory Packages GA — 11のVector Storeコネクタ本番利用開始とレガシーAPI移行ガイド
20 / 03 AWS事例解説: Amazon MemoryDBによるセマンティックキャッシュでAIワークロードのコスト86%削減
20 / 03 Anthropic: Contextual Retrieval — RAG検索精度を最大67%改善するコンテキスト付与手法
20 / 03 論文解説: RAGAS — RAGシステムの自動評価フレームワーク
20 / 03 MLSys 2024論文解説: Prompt Cache — Modular Attention Reuse for Low-Latency Inference
20 / 03 NVIDIA TensorRT-LLM: KVキャッシュ再利用最適化による推論高速化の実装解説
20 / 03 論文解説: Adaptive-RAG — クエリ複雑度に基づく検索戦略の動的切り替えによるRAGコスト最適化
20 / 03 論文解説: Curator — マルチテナント・ベクトルDBの効率的インデキシング
20 / 03 論文解説: Recursively Summarizing Enables Long-Term Dialogue Memory in LLMs
20 / 03 論文解説: FrugalGPT — 複数LLMのカスケード戦略によるコスト削減と精度向上
20 / 03 Redis AI Agent Memory: ステートフルAIシステムのためのメモリアーキテクチャ解説
20 / 03 論文解説: CacheBlend — RAGにおけるKVキャッシュ融合による高速LLM推論
20 / 03 論文解説: Lance — 適応的構造エンコーディングによる列指向ストレージの高速ランダムアクセス
20 / 03 論文解説: RouteLLM — 選好データに基づくLLMルーティングフレームワーク
20 / 03 論文解説: LiquidANN — 階層型ストレージによるコスト効率的ベクトル検索
20 / 03 論文解説: Corrective Retrieval Augmented Generation (CRAG) — 検索品質評価とWeb検索フォールバックによるRAGの堅牢化
20 / 03 論文解説: SWE-RL — 強化学習によるLLMのソフトウェアエンジニアリング推論能力の向上
20 / 03 論文解説: SWE-bench Verified — LLMコーディングエージェント評価の業界標準ベンチマーク
20 / 03 論文解説: OpenHands — An Open Platform for AI Software Agents
20 / 03 論文解説: ChatDev — Communicative Agents for Software Development
20 / 03 Notion事例解説: ベクトル検索基盤の10倍スケール・コスト90%削減の2年間
20 / 03 論文解説: Gemini 1.5 — 100万トークン長文脈理解を実現するMoEアーキテクチャ
20 / 03 論文解説: LLMs Get Lost In Multi-Turn Conversation
20 / 03 論文解説: Searching for Best Practices in Retrieval-Augmented Generation — RAGパイプライン最適構成の体系的探索
20 / 03 論文解説: SWE-agent — Agent-Computer Interfaces Enable Automated Software Engineering
20 / 03 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
18 / 03 論文解説: ToolBeHonest — ツール使用LLMの幻覚を多層的に診断するベンチマーク
18 / 03 論文解説: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use
18 / 03 論文解説: LLM Agents Making Agent Tools — 研究論文からツールを自動構築するToolMaker
18 / 03 論文解説: ToolACE — LLM Function Calling訓練データの自動生成パイプライン
18 / 03 論文解説: Efficient Tool Use with Chain-of-Abstraction Reasoning
17 / 03 Unit 42セキュリティレポート解説: MCPサンプリング経由の新しいプロンプトインジェクション攻撃ベクトル
17 / 03 NeurIPS 2024論文解説: AvaTaR - 対照推論によるLLMエージェントのツール利用最適化
17 / 03 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻防を動的に評価するフレームワーク
17 / 03 NAACL 2025論文解説: Decision TokenとデータブレンドによるLLMのFunction Calling能力強化
17 / 03 論文解説: InjecAgent — ツール統合LLMエージェントに対する間接プロンプトインジェクションのベンチマーク
17 / 03 論文解説: Toolformer - 言語モデルが自律的にツール利用を学習する仕組み
17 / 03 Microsoft MSRCの間接プロンプトインジェクション防御戦略：Spotlighting・Prompt Shields・決定論的緩和の多層防御
17 / 03 Anthropic Prompt Caching解説: Claude APIのキャッシュアーキテクチャとコスト最適化の技術詳細
17 / 03 Anthropic Advanced Tool Use解説: Tool Search・Programmatic Tool Calling・Tool Use Examplesの技術詳細
17 / 03 論文解説: ToolHijacker — LLMエージェントのツール選択に対するプロンプトインジェクション攻撃
16 / 03 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論高速化
16 / 03 論文解説: Fast Inference from Transformers via Speculative Decoding
16 / 03 論文解説: Orca - Continuous Batchingで実現するLLM推論の高スループットサービング
16 / 03 論文解説: Efficiently Programming Large Language Models using SGLang
16 / 03 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
15 / 03 論文解説: Authenticated Delegation and Authorized AI Agents
15 / 03 OOPSLA 2024論文解説: Cedar - A New Language for Expressive, Fast, Safe, and Analyzable Authorization
15 / 03 AWS公式ブログ解説: Multi-Agent collaboration patterns with Strands Agents and Amazon Nova
15 / 03 論文解説: Agentic AI for Enterprise - Multi-Agent Orchestration with Guardrails
15 / 03 AWS公式ブログ解説: Secure AI agents with Policy in Amazon Bedrock AgentCore
14 / 03 OpenTelemetry公式ブログ解説: AIエージェント可観測性の標準化と2つの計装アプローチ
14 / 03 論文解説: Towards Model-Native Agentic AI — パイプライン型からモデルネイティブ型へのパラダイムシフト
14 / 03 論文解説: Navigating MLOps — 統一ライフサイクルフレームワークとLLMOps統合
14 / 03 MRL 2024論文解説: Jina-ColBERT-v2 — 多言語Late Interactionリトリーバーの設計と最適化
14 / 03 OpenTelemetry公式ブログ解説: LLMアプリケーションの可観測性設計パターン
14 / 03 BAIR Blog解説: The Shift from Models to Compound AI Systems — モノリシックモデルから複合AIへの転換
14 / 03 ACL 2025論文解説: SetR — ランキングから集合選択へ、RAG検索のパラダイムシフト
14 / 03 ACL 2024論文解説: When is Tree Search Useful for LLM Planning? — 木探索の有効性条件
14 / 03 Haystack公式ベンチマーク解説: RAGパイプラインのパラメータチューニングと評価手法
14 / 03 Anthropic Contextual Retrieval解説: チャンクへのコンテキスト付与でRAG検索精度を67%改善
14 / 03 Anthropic Research解説: Building Effective AI Agents — エージェント設計パターンの実践ガイド
14 / 03 論文解説: Agent Design Pattern Catalogue — 基盤モデルエージェントの18アーキテクチャパターン
14 / 03 論文解説: Empowering Working Memory for LLM Agents — 作業記憶の動的管理
14 / 03 ICDE 2025論文解説: Compound AIシステムのBlueprint Architecture — エージェントとデータのオーケストレーション設計
14 / 03 論文解説: RAGBench — 説明可能な4次元メトリクスによるRAGパイプライン評価ベンチマーク
14 / 03 EMNLP 2025論文解説: How Good are LLM-based Rerankers? — リランキングモデルの実証分析
14 / 03 論文解説: Reflexion — 言語エージェントのための言語的強化学習
14 / 03 ICLR 2025論文解説: RouteLLM — 人間の嗜好データからLLMルーティングを学習する
14 / 03 論文解説: Retrieval-Augmented Generation for Large Language Models — RAGパイプライン設計の体系的整理
14 / 03 論文解説: Precise Zero-Shot Dense Retrieval without Relevance Labels (HyDE)
13 / 03 vLLM公式ブログ解説: How Speculative Decoding Boosts vLLM Performance — 実装と性能評価
13 / 03 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻撃・防御を動的に評価するフレームワーク
13 / 03 論文解説: ToolNet — グラフ構造による大規模ツール管理でLLMエージェントのツール選択を効率化
13 / 03 論文解説: Fast Inference from Transformers via Speculative Decoding — 投機的デコーディングの原論文
13 / 03 Amazon Bedrock AgentCore Gateway 解説: AWS によるマネージド MCP Gateway の設計と機能
13 / 03 論文解説: EAGLE-3 — 学習時テストスケーリングによるLLM投機的デコーディングの進化
13 / 03 API vs MCP 判断マトリクス解説: Microsoft Azure Architecture Blog の統合パターン比較
13 / 03 論文解説: Medusa — 複数デコーディングヘッドによるLLM推論高速化フレームワーク
13 / 03 MCP セキュリティリスク解説: Plug, Play, and Prey — Microsoft Defender チームの分析
13 / 03 論文解説: EAGLE — Feature Uncertaintyの再考によるLLM投機的デコーディングの高速化
12 / 03 Google Research解説: リレーショナルデータのためのグラフファウンデーションモデル
12 / 03 Google Research解説: ユーザーレベル差分プライバシーによるLLMファインチューニング
12 / 03 論文解説: Moirai 2.0 — Decoder-Onlyアーキテクチャへの転換で実現した軽量・高速時系列FM
12 / 03 論文解説: TARTE — セマンティック知識事前学習によるテーブル基盤モデル
12 / 03 論文解説: PEGASUS — CKKSとTFHEを橋渡しするFHE非多項式関数評価手法
12 / 03 CIKM 2024論文解説: TopoGDN - トポロジカル解析によるグラフ注意ネットワーク強化型時系列異常検知
12 / 03 論文解説: AnyGraph — Mixture-of-Expertsによる汎用グラフファウンデーションモデル
12 / 03 論文解説: The Future of Fully Homomorphic Encryption — FHEの現状・課題・ロードマップ
12 / 03 論文解説: GIFT-Eval — 時系列ファウンデーションモデルの包括的ベンチマーク
12 / 03 論文解説: FedKSeed — ゼロ次最適化による勾配不要の連合LLMファインチューニング
12 / 03 論文解説: CARTE — グラフ表現によるテーブルデータの事前学習と転移学習
12 / 03 論文解説: Topological Deep Learning - グラフデータを超える新パラダイムのレビュー
12 / 03 TimesFM-ICF解説: 時系列ファウンデーションモデルをFew-Shot学習器に変える
12 / 03 Intel Heracles: FHE専用ASICでCPU比最大5,547倍の高速化を実現
12 / 03 論文解説: TabArena — テーブルMLの初のLiving Benchmark
12 / 03 論文解説: HetLoRA — 異種LoRA構成による通信効率的な連合LLMファインチューニング
12 / 03 NeurIPS 2024論文解説: Graphcode - 多パラメータパーシステントホモロジーとGNNの統合
12 / 03 ACL 2025論文解説: GNN-RAG — GNNの推論とLLMの言語理解を融合した知識グラフ質問応答
12 / 03 論文解説: GFM-RAG — グラフファウンデーションモデルによるゼロショット検索拡張生成
12 / 03 論文解説: TabICL v2 — オープンソースで高速なテーブルデータ基盤モデル
12 / 03 論文解説: CAT — 非専門家向けGPU加速準同型暗号フレームワーク
12 / 03 論文解説: Sundial — Flow-Matchingによる連続値時系列ファウンデーションモデル
12 / 03 論文解説: FLoRA — LoRAアダプタは勾配圧縮器である
12 / 03 論文解説: TopoX - トポロジカルドメイン上の機械学習Pythonパッケージ群
12 / 03 NVIDIA AI Red Team解説: セマンティックプロンプトインジェクション — 視覚的記号でAIガードレールを突破する新手法
12 / 03 論文解説: Hybrid LLM — Conformal Predictionによる品質保証付きLLMルーティング
12 / 03 Meta AI解説: LlamaFirewall — AIエージェント向けオープンソースガードレールシステム
12 / 03 Kong社ベンチマーク解説: AI Gateway性能比較 — Kong・Portkey・LiteLLMのスループット実測
12 / 03 論文解説: FrugalGPT — LLM APIコストを最大98%削減するカスケード戦略
12 / 03 NAACL 2025論文解説: Attention Tracker — 訓練不要のプロンプトインジェクション検出
12 / 03 論文解説: MeanCache — ユーザー中心セマンティックキャッシュによるLLMサービスコスト削減
12 / 03 論文解説: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
12 / 03 Chronos-2解説: 単変量から汎用予測へ — Amazonの時系列ファウンデーションモデル
12 / 03 論文解説: GraphBFF — 初のBillion-Scaleグラフファウンデーションモデルとニューラルスケーリング則
12 / 03 論文解説: TabPFN v2 — テーブルデータのIn-Context Learning基盤モデル
12 / 03 論文解説: TopInG - パーシステントホモロジーによるGNN解釈性の向上
12 / 03 論文解説: OpenFedLLM — 分散プライベートデータによるLLMの連合学習フレームワーク
12 / 03 ICLR 2025論文解説: RouteLLM — 嗜好データを用いたLLMルーティングによるコスト効率的推論
12 / 03 ACL 2025論文解説: PIGuard — 過剰防御を抑制するプロンプトインジェクション検出
12 / 03 ICML 2025論文解説: EncryptedLLM — GPU加速FHEによるプライバシー保護LLM推論
11 / 03 Microsoft Research解説: PromptWizard — フィードバック駆動の自己進化型プロンプト最適化
11 / 03 論文解説: LlamaFirewall — Metaが提案するLLMエージェント向けオープンソースガードレールシステム
11 / 03 論文解説: 人間フィードバックによる動画生成の改善 - Flow-DPO/Flow-NRGの統合フレームワーク
11 / 03 AWS解説: AgentCore長期記憶の設計原則 — セマンティック・エピソード・サマリー記憶戦略の使い分け
11 / 03 論文解説: VBench-2.0 - 動画生成モデルの認知・推論能力を評価する次世代ベンチマーク
11 / 03 NeurIPS 2024論文解説: Teach Better or Show Smarter? — 命令最適化 vs 例示最適化の体系的比較
11 / 03 AWS解説: Bedrock AgentCore Gateway interceptorsによるエージェントツール呼び出しの細粒度アクセス制御
11 / 03 論文解説: GEPA — 反省的プロンプト進化が強化学習を超える（ICLR 2026 Oral）
11 / 03 論文解説: Wan - 大規模オープンソース動画生成モデルのアーキテクチャと訓練
11 / 03 論文解説: Prompt-A-Video - 選好整合LLMによる動画拡散モデルのプロンプト最適化
11 / 03 論文解説: TextGrad — テキストによる自動微分でLLMパイプラインを最適化する
11 / 03 PLDI 2024論文解説: Cedar — 表現力・高速・安全・解析可能を両立した認可言語の設計と実装
11 / 03 論文解説: VPO - プロンプト最適化によるText-to-Videoモデルのアラインメント
11 / 03 論文解説: Agent-R — エピソード記憶を用いたリアルタイムリフレクションでLLMエージェントの誤り訂正を効率化する
11 / 03 論文解説: DSPy — 宣言的LMパイプラインを自己改善コンパイラで最適化するフレームワーク
10 / 03 ICLR 2025論文解説: CogVideoX - Expert Transformerによるテキスト-動画拡散モデル
10 / 03 EMNLP 2025論文解説: GRPO-LEAD - 難易度考慮型GRPOによる簡潔な数学推論
10 / 03 NVIDIA NeMo-RL: GRPOによるDeepScaleRレシピの再現と大規模RL学習基盤
10 / 03 論文解説: HunyuanVideo - 13Bパラメータのオープンソース動画生成フレームワーク
10 / 03 論文解説: LTX-2 - 音声と動画を同時生成する非対称デュアルストリームDiffusion Transformer
10 / 03 論文解説: DAPO - 大規模GRPO学習の4つの失敗パターンとその解決策
10 / 03 NeurIPS 2025論文解説: FramePack - 定長コンテキスト圧縮による実用的動画拡散モデル
10 / 03 論文解説: DeepSeek-R1 - 強化学習によるLLM推論能力の段階的獲得パイプライン
10 / 03 論文解説: Wan - オープンな大規模動画生成モデル群
10 / 03 論文解説: DeepSeekMath - Group Relative Policy Optimization(GRPO)による数学推論の限界突破
09 / 03 テックブログ解説: Sufficient Context — RAGにおけるコンテキスト十分性の新しいレンズ（Google Research / ICLR 2025）
09 / 03 OpenAI Cookbook解説: Self-Evolving Agents — 自律的プロンプト最適化による自己進化エージェント
09 / 03 AWS解説: Amazon Bedrock Intelligent Prompt Routing - マネージドLLMルーティングの実装と設計
09 / 03 論文解説: AutoMix - 追加学習不要の自己検証型LLMカスケードルーティング
09 / 03 論文解説: AI駆動の自己修復ネットワーク制御プレーン — DRL+LLMハイブリッドアーキテクチャ
09 / 03 論文解説: RAG vs ロングコンテキストLLMの包括的比較とSelf-Routeハイブリッド手法
09 / 03 NVIDIA NVSentinel: KubernetesクラスタのGPUヘルス自動監視・自己修復システム
09 / 03 論文解説: Hybrid LLM - 品質保証付きコスト効率クエリルーティング
09 / 03 論文解説: SELF-ROUTE — LLMの自己判定によるRAG/ロングコンテキスト動的ルーティング
09 / 03 NVIDIA AI Blueprint解説: コスト効率の高いLLMルーティングの実装アーキテクチャ
09 / 03 テックブログ解説: Context Rot — 入力トークン増加がLLM性能に与える影響（Chroma Research）
09 / 03 論文解説: Kubernetes環境における自律エージェントの会話型インターフェース
09 / 03 論文解説: RouteLLM - 選好データを活用したLLMルーティングフレームワーク
09 / 03 論文解説: EvoAgent — 継続的探索によるエージェント自己進化フレームワーク
09 / 03 論文解説: LaRA — RAGとロングコンテキストLLMのベンチマーク比較（ICML 2025）
08 / 03 AWS公式ブログ解説: Amazon Bedrock AgentCore RuntimeにおけるA2Aプロトコルサポート
08 / 03 論文解説: CacheBlend - RAG向けKVキャッシュ融合によるLLM推論高速化
08 / 03 Anthropic Model Context Protocol (MCP)解説：LLMツール統合のオープン標準
08 / 03 論文解説: MCP Safety Audit — MCPエコシステムのセキュリティ脅威分類とLLM脆弱性評価
08 / 03 Anthropic公式ブログ解説: Model Context Protocolの寄贈とAgentic AI Foundationの設立
08 / 03 論文解説: ToolSandbox - LLMツール利用能力のステートフル評価ベンチマーク
08 / 03 Google Developers Blog解説: Agent2Agent (A2A) Protocol — AIエージェント間相互運用の新標準
08 / 03 論文解説: Stateful Large Language Model Serving with Pensieve
08 / 03 論文解説: LLM-Inference-Bench — マルチプラットフォームLLM推論ベンチマーク
08 / 03 CNCFブログ解説: すべてのAIプラットフォームがKubernetesに収斂する理由
08 / 03 NVIDIA技術ブログ解説: Run:ai + DynamoによるマルチノードスケジューリングでのLLM推論最適化
08 / 03 NVIDIA技術ブログ解説: Triton + TensorRT-LLMによるKubernetes上のLLMスケーリング
08 / 03 Red Hat技術ブログ解説: KubernetesでvLLMをデプロイしGuideLLMでベンチマークする実践ガイド
08 / 03 OpenAI Responses API設計思想の解説：Assistants APIからの進化と技術的背景
08 / 03 論文解説: A Survey of Agent Interoperability Protocols — MCP・ACP・A2A・ANPの比較分析
07 / 03 NVIDIA技術ブログ解説: Mastering LLM Techniques - 推論最適化の実践ガイド
07 / 03 OSDI 2022論文解説: Orca - Iteration-Level SchedulingによるLLMサービング最適化
07 / 03 論文解説: SGLang - RadixAttentionとZero-Overhead Schedulerによる高性能LLM推論
07 / 03 論文解説: BatchLLM - 大規模バッチLLM推論のGlobal Prefix SharingとToken Batching最適化
07 / 03 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
06 / 03 Elasticsearch Linear Retriever解説: RRFの限界を超えるスコアベースのハイブリッド検索
06 / 03 AKS MIG+DRA解説: Multi-Instance GPUとDynamic Resource Allocationによる効率的なGPU共有
06 / 03 論文解説: 2025年初頭のAIが経験豊富なOSS開発者の生産性に与える影響のRCT測定
06 / 03 AAAI 2024論文解説: ExpeL - 経験学習によるLLMエージェントの自律的知識獲得
06 / 03 Kubeflow Trainer V2解説: KubernetesネイティブなAIモデル分散学習の民主化
06 / 03 Anthropic Engineering解説: AIエージェントのための効果的なコンテキストエンジニアリング
06 / 03 論文解説: SPLADE-v3 - BM25を超える学習型スパース検索モデル
06 / 03 NeurIPS 2025論文解説: A-MEM - Zettelkasten方式によるLLMエージェントの動的メモリ管理
06 / 03 Amazon EKS 100Kノード解説: 超大規模AI/MLワークロードを支えるアーキテクチャ
06 / 03 Anthropic Contextual Retrieval解説: BM25×Embeddingのハイブリッド検索で失敗率49%削減
06 / 03 論文解説: Codified Context — 大規模コードベースにおけるAIエージェント向けコンテキストインフラ
06 / 03 論文解説: Generative Agents - エピソード記憶とリフレクションによる信頼性のある行動シミュレーション
06 / 03 Spotify Engineering解説: バックグラウンドコーディングエージェントのコンテキストエンジニアリング（Honk Part 2）
06 / 03 kagent解説: CNCF SandboxのKubernetesネイティブAIエージェントフレームワーク
06 / 03 論文解説: BGE M3-Embedding - 1つのモデルでDense・Sparse・ColBERTハイブリッド検索を実現
06 / 03 論文解説: Mem0 - 本番対応AIエージェントのためのスケーラブル長期記憶
06 / 03 Kubernetes v1.34 DRA GA解説: GPUの動的リソース割り当てが安定版に
06 / 03 AWS公式ブログ解説: Bedrock AgentCoreエピソード記憶でエージェントに経験学習能力を付与する
06 / 03 論文解説: DAT - Dynamic Alpha Tuning for Hybrid Retrieval in RAG
06 / 03 論文解説: Evaluating AGENTS.md — リポジトリレベルコンテキストファイルはコーディングエージェントに有効か
05 / 03 論文解説: AutoTool — グラフベースのツール遷移確率によるLLMエージェントの効率的ツール選択
05 / 03 LLMトークン最適化: セマンティックキャッシュとプロンプト圧縮によるコスト・レイテンシ削減
05 / 03 論文解説: Toolshed — RAG-Tool Fusionによる大規模ツール選択のスケーリング手法
05 / 03 LLMアプリケーションにおけるリトライ・フォールバック・サーキットブレーカーの使い分け
05 / 03 論文解説: Don't Break the Cache — エージェントタスクにおけるプロンプトキャッシュの最適設計
05 / 03 Anthropic Advanced Tool Use解説: Tool Search Tool・Programmatic Tool Callingによるエージェント最適化
05 / 03 論文解説: SemCache — LLM推論のためのセマンティックキャッシュの精度と粒度を改善する
05 / 03 EMNLP 2025論文解説: RouterEval — LLMルーティング戦略の包括的ベンチマーク
05 / 03 Azure API Management Unified AI Gatewayデザインパターン解説
05 / 03 論文解説: Agentic Plan Caching — LLMエージェントのコスト削減を実現するテスト時計画キャッシュ
04 / 03 NVIDIA Blackwell MoE推論最適化 — DeepSeek-R1で実証された大規模スパースモデルの高速推論技術
04 / 03 NVIDIA公式ブログ解説: NeMo Curatorによるデータキュレーションで埋め込みモデル精度を12%改善
04 / 03 論文解説: 拡散言語モデルのサーベイ — 手法分類・課題・今後の研究方向
04 / 03 論文解説: Diffusion Models in De Novo Drug Design — 創薬における拡散モデルの体系的レビュー
04 / 03 論文解説: LLaDA-MoE — Sparse MoEと拡散言語モデルの初統合
04 / 03 ICLR 2025論文解説: ReMoE — ReLUルーティングによる完全微分可能なMoEアーキテクチャ
04 / 03 論文解説: FlowDock — フローマッチングによるタンパク質-リガンドドッキングと結合親和性予測
04 / 03 論文解説: Matryoshka Representation Learning — 可変次元埋め込みで検索コストを1/14に削減する
04 / 03 AWS公式ブログ解説: Amazon BedrockとSageMakerによるBGE埋め込みモデルの合成データFine-tuning
04 / 03 論文解説: Mercury — 拡散ベースの超高速言語モデルの推論技術
04 / 03 論文解説: Scaling LLM Test-Time Compute — 推論時間計算量の最適配分による性能向上
04 / 03 ICML 2025論文解説: GenMol — 離散拡散モデルによる汎用創薬分子生成フレームワーク
04 / 03 IsoDDE解説: Isomorphic Labsの統合創薬設計エンジン — AlphaFold3を超える構造予測と結合親和性予測
04 / 03 論文解説: LLaDA 2.0 — 拡散言語モデルを100Bパラメータにスケーリングする技術
04 / 03 論文解説: DeepSeekMoE — Fine-grained Expert SegmentationとShared Expert Isolationによるエキスパート特化の追求
04 / 03 ACL 2024論文解説: Improving Text Embeddings with Large Language Models — LLM合成データで埋め込みモデルを訓練する
04 / 03 論文解説: AlphaFold3 — 拡散モデルによる生体分子複合体の構造予測
04 / 03 論文解説: LLaDA — マスク拡散で実現する大規模言語モデルの新パラダイム
04 / 03 論文解説: DeepSeek-V3 Technical Report — 671B MoEモデルの設計と効率的学習
04 / 03 論文解説: GISTEmbed — ガイドモデルによるバッチ内偽ネガティブ除去でテキスト埋め込みを改善
03 / 03 AWS Bedrock AgentCore SREエージェント: LangGraphマルチエージェントによるKubernetes運用自動化
03 / 03 Microsoft Research AIOpsLab: AIOps手法の標準化ベンチマーク評価フレームワーク
03 / 03 論文解説: ARES — IBM Researchによるエージェント型クラウドインシデント自動対応システム
03 / 03 論文解説: Multi-Agent Self-Healing — 4層階層マルチエージェントによるクラウド自己修復システム
03 / 03 論文解説: SRE-Agent — LLMマルチエージェントによるSREタスク自動化フレームワーク
02 / 03 Google Research解説: SOAR — 直交性残差による制御された冗長性でベクトル検索を高速化するScaNN新アルゴリズム
02 / 03 NVIDIA技術ブログ解説: cuVS IVF-PQ Deep Dive — GPU上のベクトル量子化検索の最適化技法
02 / 03 Meta Engineering解説: FaissへのNVIDIA cuVS統合によるGPUベクトル検索の高速化
02 / 03 NeurIPS 2019論文解説: DiskANN — 10億規模のベクトル検索を単一ノードで実現するSSD最適化アルゴリズム
02 / 03 論文解説: Rethinking HNSW — HNSWの階層構造は本当に必要か？
01 / 03 NVIDIA技術ブログ解説: LangChainのプロンプトインジェクション脆弱性3件とLLMセキュリティの教訓
01 / 03 NAACL 2025論文解説: Attention Tracker — アテンション解析によるプロンプトインジェクション検出
01 / 03 NAACL 2025論文解説: Adaptive Attacks Break Defenses Against Indirect Prompt Injection Attacks on LLM Agents
01 / 03 NVIDIA技術ブログ解説: Stored Prompt Injectionの脅威とLLMアプリケーション防御戦略
01 / 03 論文解説: Prompt Injection Attacks and Defenses in LLM-Integrated Applications
28 / 02 論文解説: SWE-RL — 強化学習によるLLMのソフトウェアエンジニアリング推論能力の強化
28 / 02 論文解説: Agentless — エージェント不要のシンプルなパイプラインでSWE-benchを解く
28 / 02 Google Research解説: AIによるソフトウェアエンジニアリングの変革 — コード補完からエージェント型自動化まで
28 / 02 Anthropic Research解説: AIコーディング支援がスキル形成に与える影響 — 生産性とスキル獲得のトレードオフ
28 / 02 論文解説: Mistral-SPLADE — LLMのEcho EmbeddingでBEIRスパース検索SOTAを達成する手法
28 / 02 論文解説: SPLADE v2 — 学習型スパース検索で転置インデックスにセマンティック拡張を導入する手法
28 / 02 論文解説: HyDE — LLM生成の仮想ドキュメントでゼロショット検索精度を改善する手法
28 / 02 論文解説: ColBERTv2 — Residual Compressionで実現する軽量Late Interaction検索
28 / 02 論文解説: SWE-agent — Agent-Computer Interface設計がLLMエージェントのソフトウェアエンジニアリング性能を決める
28 / 02 論文解説: Matryoshka Representation Learning — 可変次元Embeddingで検索コストを14倍削減する手法
27 / 02 NeurIPS 2024論文解説: Toward Efficient Inference for Mixture of Experts — MoE推論のスループットを最大11.55倍改善する3手法
27 / 02 NVIDIA Tech Blog解説: CUDA GraphsによるLlama.cpp推論の最適化 — カーネル起動オーバーヘッドの削減手法
27 / 02 論文解説: Qwen2.5-Coder — 5.5兆トークンで学習したオープンソースコーディングLLMの設計と性能
27 / 02 論文解説: PowerInfer — コンシューマGPUでLLM推論を最大11.69倍高速化するCPU-GPUハイブリッドエンジン
27 / 02 論文解説: DeepSeek-V2 — MoEモデルのKVキャッシュを93.3%削減するMulti-head Latent Attention
24 / 02 NVIDIA解説: NVFP4 KV Cacheで長コンテキストLLM推論を最適化 — メモリ50%削減・TTFT 3倍高速化
24 / 02 Meta AI解説: 量子化Llamaモデル — QATとSpinQuantで推論速度2.5倍・モデルサイズ56%削減
24 / 02 LangChain公式解説: LangGraphマルチエージェントワークフローの3設計パターン
24 / 02 Google Research解説: ReAct — 推論と行動のシナジーによるLLMエージェントの基盤パラダイム
24 / 02 論文解説: Qwen3 Embedding — 3段階学習とモデルマージで実現した多言語テキスト埋め込み
24 / 02 論文解説: AdaptiveRAG — クエリ複雑度分類器でRAG構成を動的適応し35%コスト削減
24 / 02 ACL 2024論文解説: ChunkAttention — プレフィックスKVキャッシュ共有によるマルチテナント推論高速化
24 / 02 NeurIPS 2024論文解説: SGLang — RadixAttentionとCompressed FSMによるLLM推論高速化
24 / 02 PFN解説: PLaMo-Embedding-1B — LLM2Vecで実現した日本語JMTEBトップクラスの埋め込みモデル
24 / 02 Anthropic解説: Effective Context Engineering for AI Agents
24 / 02 Anthropic解説: Claude Code Best Practices for Agentic Coding
24 / 02 論文解説: プロンプトキャッシュ戦略の体系的分析 — Claude/GPT-4/GeminiのAPIコスト60-80%削減
24 / 02 論文解説: RAG-Gym — MDP定式化とプロセス監督によるAgentic RAG最適化
24 / 02 論文解説: CodeAct — 実行可能コードでLLMエージェントの行動空間を統一する
24 / 02 SIGCOMM 2024論文解説: CacheGen — KVキャッシュ圧縮・ストリーミングによるLLM高速化
24 / 02 MLSys 2024 Best Paper解説: AWQ — 活性化ベース重み量子化でLLMを4bitに圧縮
24 / 02 ICML 2025論文解説: Flexible and Efficient Grammar-Constrained Decoding
24 / 02 Voyage AI解説: Voyage 4 — MoEアーキテクチャと共有Embedding空間による次世代テキスト埋め込み
24 / 02 SqueezeBits解説: llguidance vs XGrammar — vLLM/SGLangでの構造化出力ベンチマーク
24 / 02 Databricks Research解説: Long Context RAGにおけるLLM性能の大規模ベンチマーク
24 / 02 サーベイ解説: Efficient Inference for Large Reasoning Models — 推論コスト制御の体系的分類
24 / 02 論文解説: Lost in the Middle — LLMはロングコンテキストの中間情報を見落とす
24 / 02 NeurIPS 2024論文解説: KVQuant — KVキャッシュ量子化で1000万トークンコンテキストを実現
24 / 02 論文解説: SGLang — RadixAttentionによるKVキャッシュ自動共有
24 / 02 論文解説: FrugalGPT — LLMカスケード・プロンプト適応・近似の3戦略で最大98%コスト削減
24 / 02 論文解説: ReWOO — 観察を分離した効率的エージェント推論でトークン消費を大幅削減
24 / 02 Databricks解説: Embeddingモデルのファインチューニングで検索・RAG精度を向上させる
24 / 02 論文解説: Agentic RAG — 自律エージェント型RAGアーキテクチャのサーベイ
24 / 02 論文解説: XGrammar — 語彙分割とキャッシュによる高速構造化出力エンジン
24 / 02 論文解説: The Instruction Hierarchy — LLMに命令の優先順位を学習させる
24 / 02 論文解説: RouteLLM — 選好データから学習するLLMルーターで推論コストを2倍以上削減
24 / 02 論文解説: Adaptive-RAG — クエリ複雑度分類で検索戦略を動的に選択するRAGフレームワーク
24 / 02 MLSys 2024論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシ推論
24 / 02 ICML 2024論文解説: LATS — モンテカルロ木探索でLLMエージェントの推論・行動・計画を統合
24 / 02 SOSP 2023論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention
24 / 02 ICML 2025論文解説: LaRA — RAGとLong-Context LLMのベンチマーク比較
24 / 02 論文解説: MMTEB — 500+タスク×250+言語の大規模多言語テキスト埋め込みベンチマーク
24 / 02 論文解説: Don't Break the Cache — プロンプトキャッシュの3社比較評価
24 / 02 論文解説: syftr — Bayesian最適化によるRAGパイプラインのPareto最適構成探索
24 / 02 論文解説: MARA — LangGraphベースのマルチエージェントRAGアーキテクチャ
24 / 02 論文解説: JSONSchemaBench — 構造化出力フレームワークの体系的ベンチマーク
24 / 02 論文解説: Don't Do RAG — Cache-Augmented Generation(CAG)がRAGを置き換える条件
24 / 02 論文解説: Principled Instructions Are All You Need for Questioning LLaMA-1/2, GPT-3.5/4
24 / 02 NeurIPS 2023論文解説: Reflexion — 言語フィードバックによる自己改善エージェント
23 / 02 論文解説: RAG-RewardBench — 45報酬モデルによるRAG評価ベンチマーク
23 / 02 EMNLP 2025論文解説: FaithJudge — 人間アノテーション活用のRAG忠実度ベンチマーク
23 / 02 AWS解説: Amazon Bedrock Model EvaluationのLLM-as-a-Judge機能によるRAG品質評価
23 / 02 論文解説: LLM Judges Are Error-Prone — RAG評価における系統的エラーの実測分析
23 / 02 論文解説: Automated Evaluation of RAG Pipelines with LLM-as-a-Judge — GPT-4oからOSSまでRAG評価Judgeの実証比較
23 / 02 論文解説: CachedAttention — マルチターン会話のKVキャッシュ再利用でTTFT 2.8倍高速化
23 / 02 論文解説: LLUMNIX — リクエストライブマイグレーションによるLLM推論の動的負荷分散
23 / 02 カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク
23 / 02 Anthropic公式解説: Claude Prompt Cachingの技術仕様と最適化戦略
23 / 02 論文解説: Towards Optimizing the Costs of LLM Usage — 品質予測とLP緩和によるLLMコスト40-90%削減
23 / 02 NVIDIA解説: VILA/Cosmos Nemotron — クラウドからエッジまでのVLMデプロイメント戦略
23 / 02 NVIDIA解説: Traditional RAG vs. Agentic RAG — 動的知識検索を実現するエージェント型RAGの設計原則
23 / 02 NVIDIA Developer Blog解説: AI Blueprint for Cost-Efficient LLM Routingの実装アーキテクチャ
23 / 02 AWS解説: Amazon Bedrock Knowledge Basesによる構造化データの自然言語クエリ — マネージドNL2SQLの実装パターン
23 / 02 論文解説: LLMによるノーコード開発の適性要因 — エンドユーザーIoTアプリケーション開発への適用
23 / 02 論文解説: Text-to-SQL based QA on Product Catalogs — RAG vs SQL の定量比較
23 / 02 論文解説: CHASE-SQL — マルチパス推論×DPO候補選択でBIRDベンチマーク73.0%を達成したText-to-SQL
23 / 02 論文解説: RAGCache — RAG向けKVキャッシュでTTFTを最大4倍高速化
23 / 02 論文解説: DistServe — Prefill/Decode分離によるGoodput最適化LLMサービング
23 / 02 論文解説: CoALA — 認知アーキテクチャに基づくLLMエージェントのメモリ分類体系
23 / 02 論文解説: ToolLLM — 16,000+ APIをマスターするLLMの学習フレームワーク
23 / 02 ICLR 2024論文解説: MiniLLM — 逆KLダイバージェンスによるLLMオンポリシー蒸留
23 / 02 SOSP 2023論文解説: vLLM — PagedAttentionによるKVキャッシュメモリ管理の革新
23 / 02 OSDI 2024論文解説: Sarathi-Serve — Chunked-Prefillsで実現するLLM推論のスループット・レイテンシ最適化
23 / 02 COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQLフレームワーク
23 / 02 Voyage AI解説: Voyage 4 — MoEアーキテクチャと共有埋め込み空間で非対称検索を実現
23 / 02 OpenAI公式解説: Structured Outputs in the API — strict modeによる100%スキーマ準拠の実現
23 / 02 NVIDIA解説: Nemotron RAG×SQL Server 2025 — エンタープライズデータ上のスケーラブルAI構築
23 / 02 NVIDIA解説: TensorRT-LLMのKVキャッシュ再利用最適化 — 優先度ベースEvictionとイベントAPI
23 / 02 ブログ解説: NVIDIA NeMo Retriever NIMsでAgentic RAGパイプラインを構築する
23 / 02 Microsoft解説: Azure OpenAI PTU（Provisioned Throughput Units）ベストプラクティス — 容量計画からスピルオーバーまで
23 / 02 AWS公式解説: Letta（旧MemGPT）がAurora PostgreSQL + pgvectorでプロダクション向けAIエージェントを構築する方法
23 / 02 AWS公式解説: Amazon Bedrockプロンプトキャッシュの技術仕様とConverse API実装
23 / 02 AWS公式解説: Amazon Bedrock Cross-Region Inferenceでスロットリングを解消しスループットを向上させる
23 / 02 サーベイ解説: A Survey of Vibe Coding with Large Language Models — 制約付きMDPによる形式化と5つの開発モデル
23 / 02 論文解説: ROUTE — マルチタスクFTとエキスパートLLM協調でText-to-SQL精度76.4%を達成
23 / 02 論文解説: Qwen2.5-VL — 動的解像度とMRoPEで実現するオープンソース最高性能VLM
23 / 02 論文解説: StructRAG — 推論時ハイブリッド情報構造化によるRAGの知識集約的推論強化
23 / 02 論文解説: DB-GPT — プライベートLLMによるSQL+エージェント統合データベース操作フレームワーク
23 / 02 論文解説: Adaptive RAG — クエリ複雑度に基づく検索戦略の動的選択
23 / 02 ISCA 2025論文解説: RAGO — RAGサービングのシステムレベル性能最適化
23 / 02 NeurIPS 2024論文解説: Compact Language Models via Pruning and Knowledge Distillation (Minitron)
23 / 02 COLING 2025論文解説: MAC-SQL — Selector・Decomposer・Refinerによるマルチエージェント協調Text-to-SQL
23 / 02 EMNLP 2025論文解説: DecEx-RAG — MDPモデリングとプロセス監視でAgentic RAGを最適化
23 / 02 LangChain公式解説: Self-Reflective RAG with LangGraph — CRAG・Self-RAGパターンの実装
23 / 02 Google Developers Blog解説: Gemini 2.5の動画理解 — ネイティブマルチモーダルによる映像×音声×コード統合処理
23 / 02 AWS解説: Amazon Bedrock×RAGによるエンタープライズText-to-SQLの構築パターン
23 / 02 AWS ML Blog解説: Amazon Bedrockで構築する堅牢なText-to-SQLソリューション
23 / 02 AWS公式解説: Amazon Bedrockのコスト最適化戦略 — 7つの手法で推論コストを最大90%削減
23 / 02 論文解説: LLM4FaaS — LLMとFunction-as-a-Serviceで実現するノーコードアプリケーション開発
23 / 02 論文解説: MMTEB — 250言語×500データセットに拡張された多言語テキスト埋め込みベンチマーク
23 / 02 論文解説: HybridRAG — Knowledge Graph×ベクトル検索のRRF統合で金融QA精度を向上
23 / 02 論文解説: JSONSchemaBench — 10K実世界スキーマによるLLM構造化出力ベンチマーク
23 / 02 サーベイ解説: Agentic RAG — 自律エージェント統合型検索拡張生成の体系的分類
23 / 02 論文解説: Llumnix — ライブマイグレーションによるLLM推論の動的スケジューリング
23 / 02 論文解説: RAGCache — 知識ツリー構造によるRAG推論のKVキャッシュ最適化
23 / 02 論文解説: FrugalGPT — カスケード型LLMルーティングでコスト最大98%削減
23 / 02 NeurIPS 2024論文解説: HippoRAG — 海馬モデルに基づくLLMの長期記憶型RAGアーキテクチャ
23 / 02 CIDR 2025論文解説: AOP — DAGベース並列実行によるLLMパイプライン自動オーケストレーション
23 / 02 Microsoft FastTrack解説: Azure API Management Circuit BreakerとLoad BalancingによるAzure OpenAIレジリエンス設計
23 / 02 LangChain公式解説: LCEL（LangChain Expression Language）の設計思想とRunnable API
23 / 02 AWS公式ブログ解説: Bedrock Intelligent Prompt Routingのコスト・レイテンシ最適化戦略
23 / 02 Anthropic解説: Model Context Protocol (MCP) — AIアシスタントと外部データを接続する標準プロトコル
23 / 02 論文解説: MemEngine — LLMエージェントメモリの統一モジュラーフレームワーク
23 / 02 論文解説: Mem0 — ベクトルDB×グラフDBで実現するプロダクション向けLLMエージェント長期記憶
23 / 02 サーベイ解説: A Survey of NL2SQL with Large Language Models — LLMベースText-to-SQLの体系的分類
23 / 02 ICML 2025論文解説: A Unified Approach to Routing and Cascading for LLMs — ルーティングとカスケードの統一的最適化
23 / 02 論文解説: CHESS — コンテキスト認識型4段パイプラインでText-to-SQL精度73%を達成
23 / 02 論文解説: Gemini 1.5 — 1000万トークンコンテキストで実現するマルチモーダル長文脈理解
23 / 02 論文解説: Prompt Cache — モジュラーアテンション再利用によるLLM推論の低レイテンシ化
23 / 02 論文解説: Efficient Guided Generation for Large Language Models — 有限状態機械による構造化出力の理論基盤
23 / 02 論文解説: ALCE — LLMの引用付きテキスト生成を自動評価するベンチマーク
23 / 02 論文解説: DIN-SQL — 分解型In-Context Learningで実現するText-to-SQL自己修正パイプライン
23 / 02 論文解説: MTEB — 56データセット×8タスクでEmbeddingモデルを統一評価するベンチマーク
23 / 02 COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQL
23 / 02 ICLR 2025論文解説: CHASE-SQL — マルチパス推論と選好最適化によるText-to-SQL
23 / 02 Microsoft解説: Production-grade API Gateway Patterns for Microsoft Foundry — Azure OpenAI本番ゲートウェイ5パターン
23 / 02 LangChainブログ解説: Memory for Agents — エージェントメモリの設計パターン
23 / 02 AWSブログ解説: Build Durable AI Agents with LangGraph and Amazon DynamoDB
23 / 02 Anthropicブログ解説: Effective Harnesses for Long-Running Agents — 長時間稼働エージェントの状態管理
23 / 02 Anthropic解説: Citations API — RAGシステムに自動出典付与を実現するsearch_result content blocks
23 / 02 論文解説: Don't Break the Cache — LLMエージェントフレームワークのプロンプトキャッシュ効率を体系評価
23 / 02 論文解説: Vibe Coding — AIとの対話によるプログラミングの実証分析
23 / 02 論文解説: Agentic Retrieval-Augmented Generation — エージェント型RAGアーキテクチャの体系的分類
23 / 02 論文解説: Ruri — 日本語汎用テキスト埋め込みモデル
23 / 02 論文解説: RouteLLM — 選好データに基づくLLMルーティングでコスト85%削減
23 / 02 論文解説: CHESS — RAGベーススキーマ選択でText-to-SQL精度73%を達成するパイプライン
23 / 02 論文解説: PipeRAG — パイプライン並列化によるRAG高速化のアルゴリズム・システム協調設計
23 / 02 論文解説: Gemini — ネイティブマルチモーダル基盤モデルのアーキテクチャと設計思想
23 / 02 論文解説: MemGPT — OS仮想メモリ概念でLLMエージェントの長期記憶を実現する
23 / 02 論文解説: Matryoshka Representation Learning — 可変次元埋め込みによる適応的表現学習
23 / 02 CIDR 2025論文解説: Text2SQL is Not Enough — TAGフレームワークによるDB×LLM推論の統合
23 / 02 NeurIPS 2025論文解説: A-MEM — Zettelkasten方式によるLLMエージェントの自律的メモリ管理
22 / 02 Anthropic解説: Building Effective Agents — 5つの構成パターンとエージェント設計の実践原則
22 / 02 論文解説: HELMET — 51モデルで検証する長コンテキストLLMの効果的な評価フレームワーク
22 / 02 Anthropic Engineering Blog解説: How We Built Our Multi-Agent Research System
22 / 02 論文解説: LoCoBench-Agent — 長文コンテキストソフトウェア工学における対話型LLMエージェントベンチマーク
22 / 02 論文解説: Optima — LLMベースマルチエージェントシステムの効果と効率を同時最適化するフレームワーク
22 / 02 論文解説: LLM-based ACR — 14モデル×8データセットによる自動コードレビューの実証研究
22 / 02 論文解説: Don't Break the Cache — プロンプトキャッシュのエージェントタスクにおける体系的評価
22 / 02 ICML 2025論文解説: RepoAudit — 自律型LLMエージェントによるリポジトリレベルコード監査
22 / 02 論文解説: GraphRAG-FinQA — 知識グラフ×マルチエージェントチームによる金融質問応答
22 / 02 サーベイ解説: コードレビューベンチマークの変遷 — Pre-LLM時代からLLM時代への評価実践の体系的分析
22 / 02 論文解説: Nexus — ドメイン特化スーパーバイザーの専門化と階層集約によるマルチエージェントシステム
22 / 02 論文解説: CodeReviewBench — LLM自動コードレビューの4軸包括的ベンチマーク
22 / 02 論文解説: LongCodeBench — 1MトークンコンテキストにおけるコーディングLLMの体系的評価
22 / 02 論文解説: Towards a Theoretical Understanding of Why and When Multi-Agent Workflows Work Better than Single-Agent Workflows
22 / 02 NeurIPS 2023論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
22 / 02 LangChain公式解説: 知識グラフ構築×ハイブリッド検索でRAG精度を向上させる実装パターン
22 / 02 論文解説: Agentless — エージェントレス設計でLLMベースのソフトウェアエンジニアリングを再考する
22 / 02 NVIDIA解説: NeMo Agent Toolkitで構築するテスト駆動コーディングエージェント — LangGraph×推論モデル×サンドボックス実行
22 / 02 NVIDIA解説: PyG×グラフDBによるGraphRAGのQA精度向上 — G-Retrieverアーキテクチャの実践
22 / 02 論文解説: On the Design and Analysis of LLM-Based Algorithms — 自己修正・アンサンブル・外部検証の理論的分析
22 / 02 論文解説: Think-on-Graph — LLMエージェントによる知識グラフ上のマルチホップ推論
22 / 02 論文解説: Agent-R — MCTSベースの反復的自己訓練でLLMエージェントに自己反省能力を獲得させる
22 / 02 論文解説: LightRAG — グラフ×ベクトルのデュアルレベル検索で軽量かつ高精度なRAGを実現
22 / 02 論文解説: SWE-RL — オープンソースコード進化データによる強化学習でLLMコーディングエージェントを強化する
22 / 02 論文解説: From Local to Global — GraphRAGによるクエリ指向要約の知識グラフアプローチ
22 / 02 論文解説: HAC-Retrieval — 階層的Anti-CorruptionパイプラインによるロバストなRAG
22 / 02 LangChain公式解説: マルチエージェントアーキテクチャのベンチマーク — Supervisor vs Swarm vs 単一エージェント
22 / 02 論文解説: CITER — Retriever-Reasoner-Criticマルチエージェントによる知識集約型タスクの協調的反復改善
22 / 02 NVIDIA解説: ログ解析マルチエージェント自己修正型RAGシステム — Nemotronとハイブリッド検索の実装
22 / 02 Anthropic解説: Claude APIプロンプトキャッシュ — コスト90%削減・レイテンシ85%短縮の実装と料金設計
22 / 02 論文解説: Agentic RAG with Knowledge Graphs for Clinical Practice Guideline Retrieval
22 / 02 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論
22 / 02 論文解説: CacheBlend — 選択的KV再計算によるRAGサービングの高速化
22 / 02 ICLR 2025 Spotlight論文解説: TheAgentCompany — 実世界タスクでのLLMエージェントベンチマーク
22 / 02 NVIDIA解説: 合成データによるRAGパイプライン評価・最適化 — NeMo Curator実践ガイド
22 / 02 AWS公式ブログ解説: Amazon MemoryDBによる永続セマンティックキャッシュでLLMワークロードを高速化・コスト削減
22 / 02 Anthropic解説: Code Execution with MCP — プログラマティックツール呼び出しでトークン消費98.7%削減
22 / 02 論文解説: LLMエージェント評価・ベンチマークの包括的サーベイ（KDD 2025）
22 / 02 論文解説: Smart RAG — クエリ分解×知識源評価×適応生成でRAG精度を段階的に改善
22 / 02 論文解説: Multi-Agent Collaboration Mechanisms — LLMマルチエージェント協調の分類体系と設計指針
22 / 02 論文解説: MIO — 音声・テキスト・画像・動画を統一トークンで理解・生成する基盤モデル
22 / 02 論文解説: CoRAG — Chain-of-Retrieval Augmented Generation
22 / 02 CVPR 2024論文解説: MMMU — 大規模マルチモーダル理解・推論ベンチマーク
22 / 02 Google解説: Gemini 2.5の動画理解 — VideoMME 85.2%達成のマルチモーダル技術詳細
22 / 02 論文解説: OctoTools — DAG並列実行で推論時間47%削減の拡張可能なエージェントフレームワーク
22 / 02 論文解説: MCTS-RAG — モンテカルロ木探索で小規模LMの検索拡張推論を飛躍的に強化
22 / 02 論文解説: MindSearch — DAGベース並列検索エージェントによるマルチソース情報統合
22 / 02 論文解説: Speculative RAG — 並列ドラフト生成によるRAG高速化と精度向上の同時達成
22 / 02 論文解説: ARES — RAGシステムの自動評価フレームワーク
22 / 02 論文解説: Chameleon — Mixed-Modal Early-Fusion Foundation Models
22 / 02 Google解説: Gemini 3 API主要アップデート — thinking_level・media_resolution・Thought Signaturesの技術詳細
22 / 02 論文解説: MCP-Zero — MCPエージェントのための能動的ツール発見フレームワーク
22 / 02 論文解説: CoRAG — 反復的検索クエリ連鎖で知識集約型QAの精度を大幅向上
22 / 02 論文解説: Semantic Caching for LLM-Driven RAG Systems — コスト効率の高いセマンティックキャッシュ戦略
22 / 02 ICLR 2025論文解説: JudgeBench --- LLM-as-Judgeの評価ベンチマーク
22 / 02 論文解説: ARAGOG — RAGパイプライン構成の体系的評価フレームワーク
22 / 02 論文解説: Gemini 1.5 — Sparse MoEで100万トークンコンテキストのマルチモーダル理解を実現
22 / 02 NVIDIA解説: Traditional RAG vs Agentic RAG — AIエージェントが動的知識を必要とする理由
22 / 02 Care Accessが Amazon Bedrock プロンプトキャッシュで86%コスト削減を達成した事例解説
22 / 02 AWS: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する
22 / 02 Anthropic: AIエージェント評価の実践ガイド — Demystifying Evals
22 / 02 論文解説: ARC Prize 2025 Technical Report — ARC-AGI-2ベンチマークの設計と汎用知能評価
22 / 02 論文解説: MAESTRO — Multi-Agent Evaluation and Testing for Real-world Orchestration
22 / 02 論文解説: When AIs Judge AIs — Agent-as-a-Judgeサーベイ
22 / 02 論文解説: MCPBench — MCPサーバのレイテンシ・信頼性を体系的に評価するベンチマーク
22 / 02 サーベイ解説: Agentic RAG — エージェント型検索拡張生成の体系的分類と設計パターン
22 / 02 論文解説: Agent-as-a-Judge — エージェントでエージェントを評価する
22 / 02 論文解説: Qwen2-VL — 任意解像度の画像・動画を動的トークン化するVision-Language Model
22 / 02 論文解説: RouterBench — LLMルーターの包括的ベンチマークによるマルチソースルーティング最適化
22 / 02 論文解説: MMMU-Pro — マルチモーダル理解ベンチマークの堅牢化手法とOCRボトルネック
22 / 02 論文解説: PyramidKV — KVキャッシュ12%でFull精度の99%を維持する動的圧縮手法
22 / 02 論文解説: RAGCache — Retrieval-Augmented Generationのための効率的な知識キャッシュシステム
22 / 02 論文解説: Gemini — ネイティブマルチモーダルモデルの設計と画像・音声・動画統合処理
22 / 02 論文解説: FrugalGPT — 複数LLMカスケードによるコスト最大98%削減
21 / 02 論文解説: Benchmarking Large Language Models for Vulnerability Detection — LLM脆弱性検出の定量評価
21 / 02 Anthropic解説: Mitigating Prompt Injections in Browser Use — 強化学習による防御の最前線
21 / 02 論文解説: Not What You've Signed Up For — 間接プロンプトインジェクションの体系的脅威分析
21 / 02 論文解説: Prompt Injection Attacks on Agentic Coding Assistants — 5製品の実証評価
21 / 02 NVIDIA解説: リランキングマイクロサービスによるRAG精度向上とコスト削減の両立
21 / 02 NVIDIA Technical Blog解説: Teacher-Studentパラダイムで小規模LLMのコードレビュー精度を18%向上
21 / 02 ブログ解説: LangChain Self-Reflective RAG with LangGraph — 条件付きエッジで実現する自己修正型検索生成
21 / 02 Anthropic解説: Contextual Retrieval — チャンク文脈付与で検索失敗率67%削減
21 / 02 論文解説: WebArena — 812タスクの現実的Web環境で自律エージェントを評価する
21 / 02 論文解説: Large Language Models are Zero-Shot Reasoners
21 / 02 Microsoft Research解説: CORE — LLMのProposer-Rankerアーキテクチャで静的解析の指摘を自動修正
21 / 02 Anthropic解説: Effective Context Engineering for AI Agents
21 / 02 論文解説: A-RAG — 階層的検索インターフェースによるエージェントRAGのスケーリング
21 / 02 論文解説: MLE-bench — 75のKaggleコンペでMLエンジニアリングエージェントを評価する
21 / 02 論文解説: RAGLAB — RAGアルゴリズムの公平比較を実現するモジュラー研究フレームワーク
21 / 02 論文解説: Searching for Best Practices in RAG — 1,400実験が示すマルチソースRAGパイプラインの最適解
21 / 02 NVIDIA解説: NeMo Retrieverリランキングで実現するRAGパイプライン精度向上
21 / 02 論文解説: Reasoning Language Models: A Blueprint — 推論言語モデル構築の体系的設計図
21 / 02 サーベイ解説: Agentic RAG — エージェント型検索拡張生成の体系的分類と実装フレームワーク
21 / 02 サーベイ解説: Towards Trustworthy RAG — RAGシステムの信頼性6次元フレームワーク
21 / 02 論文解説: GAIA — 汎用AIアシスタントの実力を測る466タスクベンチマーク
21 / 02 論文解説: Tree of Thoughts — LLMによる探索的問題解決フレームワーク
21 / 02 NVIDIA解説: LangGraphによるHuman-in-the-Loop AIエージェントの構築パターン
21 / 02 サーベイ解説: リランキングモデルの進化 — ヒューリスティクスからLLMまでの体系的分類
21 / 02 論文解説: LLM4CR — RAGとイテレーティブリファインメントによるLLMベースコードレビュー自動化
21 / 02 論文解説: τ-bench — ツール・エージェント・ユーザー三者間対話の信頼性ベンチマーク
21 / 02 論文解説: RAGAS — 参照フリーRAGパイプライン自動評価フレームワーク
21 / 02 論文解説: Self-Consistency Improves Chain of Thought Reasoning in Language Models
21 / 02 NVIDIA解説: Agent Morpheus — 生成AIによるエンタープライズCVE分析の自動化
21 / 02 論文解説: DeepRAG — MDP定式化による適応的検索判断でRAGの効率と精度を両立
21 / 02 NeurIPS 2024論文解説: RankRAG — コンテキストランキングとRAGを単一LLMで統合する
21 / 02 論文解説: Self-RAG — 自己反省トークンによる適応的検索・生成・批評の統合フレームワーク
21 / 02 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を評価する
21 / 02 論文解説: Chain-of-Thought Prompting Elicits Reasoning in Large Language Models
21 / 02 EMNLP 2024論文解説: CodeAgent — マルチエージェントLLMによる自律的コードレビューシステム
20 / 02 LangChain公式解説: LangGraph Adaptive RAG — エージェント型検索ルーティングの実装パターン
20 / 02 論文解説: Multi-Document RAGにおけるBM25・Dense・Hybrid検索戦略の体系的比較
20 / 02 論文解説: Chain-of-Retrieval Augmented Generation — 反復的クエリ再構成でマルチホップQAの精度を向上
20 / 02 論文解説: Query Routing for Homogeneous Tools — 同種ツール間の軽量クエリルーティング手法
20 / 02 論文解説: AdaptiveRAG — クエリ分類×適応的検索戦略でRAGの精度とコストを両立する
20 / 02 AWS公式解説: Amazon Bedrock Intelligent Prompt Routing — マネージドLLMルーティングの実装と活用
20 / 02 論文解説: SRAG — マルチホップ質問応答のための構造化RAG
20 / 02 論文解説: MASAI — モジュラーアーキテクチャによるソフトウェアエンジニアリングAIエージェント
20 / 02 論文解説: RouteLLM — 人間選好データによるLLMコスト最適化ルーティング
20 / 02 論文解説: RULER — Needle-in-a-Haystackの先にあるロングコンテキストLLM評価の決定版
20 / 02 SIGIR 2009論文解説: Reciprocal Rank Fusion — ハイブリッド検索の基盤となったランク統合手法の原論文
20 / 02 AWS公式ブログ解説: OpenSearch Serviceでスパース×デンスベクトルを統合したRAGハイブリッド検索
20 / 02 AWS解説: LangGraphとAmazon Bedrockで構築するマルチエージェントシステム
20 / 02 Anthropic解説: マルチエージェントリサーチシステムの設計と実装
20 / 02 Anthropic解説: Effective Context Engineering for AI Agents — LLMの注意予算を最適化する実践戦略
20 / 02 論文解説: One Router, Many Models — Cross-Attentionによるコスト考慮型LLMルーティング
20 / 02 論文解説: Agentic AI Systems in Financial Services — マルチエージェントLLMの信頼性設計パターン
20 / 02 Google ADK解説: マルチエージェントアプリケーション構築のためのオープンソースフレームワーク
20 / 02 論文解説: TTT-E2E — テスト時学習でロングコンテキストLLMのメモリ・速度限界を突破する
20 / 02 論文解説: Strategic and Selective Mixtures — LLMルーティングとカスケードの実装判断ガイド
20 / 02 論文解説: Routing to the Expert — 報酬モデルガイドによるLLMアンサンブルルーティング
20 / 02 論文解説: Blended RAG — セマンティック検索×BM25×メタデータフィルタリングで検索精度84.6%を達成
20 / 02 EMNLP 2023論文解説: Query Rewriting for Retrieval-Augmented Large Language Models
20 / 02 NVIDIA解説: マルチエージェントSelf-Corrective RAGシステムの構築
20 / 02 NVIDIA AI Blueprint解説: コスト効率的LLMルーティングの本番実装パターン
20 / 02 AWS公式解説: Multi-Provider Generative AI Gateway — LiteLLMによるマルチプロバイダLLM統合アーキテクチャ
20 / 02 NeurIPS 2024論文解説: Found in the Middle — Ms-PoEでLost in the Middle問題を解決する
20 / 02 論文解説: SWE-agent — エージェント・コンピュータインターフェースによる自動バグ修正
20 / 02 論文解説: RAG-Fusion — マルチクエリ生成×RRFでRAG検索の網羅性を向上させる手法
20 / 02 論文解説: A Systematic Review of Reliability Frameworks for Production LLM Systems
20 / 02 論文解説: Mixture-of-Agents — 複数LLMの協調で単体GPT-4oを超える品質を実現
20 / 02 論文解説: Corrective Retrieval Augmented Generation (CRAG)
20 / 02 論文解説: MetaGPT — SOP駆動マルチエージェント協調フレームワーク
20 / 02 論文解説: Lost in the Middle — LLMはロングコンテキストをどう使うか
20 / 02 論文解説: An Analysis of Fusion Functions for Hybrid Retrieval — RRF vs 線形結合 vs Learning to Rank の体系的比較
19 / 02 AWS公式解説: LlamaIndex×Amazon Bedrockで構築するAgentic RAGアプリケーション
19 / 02 ACL 2025論文解説: MAIN-RAG — マルチエージェント協調フィルタリングでRAGの検索ノイズを解消する
19 / 02 論文解説: LightRAG — デュアルレベル検索とインクリメンタル更新で実現する軽量グラフRAG
19 / 02 論文解説: GraphRAG — ナレッジグラフとコミュニティ構造でRAGをグローバルに拡張する
19 / 02 論文解説: Agentic RAG — 自律エージェントによる検索拡張生成の包括的サーベイ
19 / 02 論文解説: Muon + MLA + MoE — 3技術統合で68%メモリ削減・3.2倍推論高速化を実現
19 / 02 論文解説: MegaScale-MoE — 1,440 GPU上で1.88倍高速化を実現するMoE学習システム
19 / 02 論文解説: DeepSeekMath — GRPOによるLLM数学推論の限界突破
19 / 02 論文解説: Kimi K2 — 1兆パラメータMoE+MuonClipで実現するオープンエージェント知能
19 / 02 論文解説: Muon is Scalable for LLM Training — Newton-Schulz直交化による2倍効率のオプティマイザ
19 / 02 論文解説: JOrthoBench — 日本語表記ゆれによるLLM評価の盲点を暴く
19 / 02 論文解説: MetaLLM — Multi-Armed Banditによるコスト効率最適のLLMルーティングフレームワーク
19 / 02 論文解説: DeepSeek-V3 Technical Report — 671B MoEモデルの革新的アーキテクチャと$560万学習の全貌
19 / 02 論文解説: AutoMix — 自己検証とPOMDPによるLLM自動カスケードルーティング
19 / 02 Kokoro-82M オンデバイスTTS実装解説: モバイル・エッジで動く高品質音声合成の実践
19 / 02 Google Research解説: SOAR — ScaNNを加速する直交残差スピリングアルゴリズム
19 / 02 AWS技術ブログ解説: LLM-as-a-Judge on Amazon Bedrock — マネージドLLM評価の実装ガイド
19 / 02 論文解説: RouterBench — LLMルーター評価のための標準ベンチマーク
19 / 02 NVIDIA技術ブログ解説: Mastering LLM Techniques: Evaluation — LLM・RAG評価の包括的ガイド
19 / 02 論文解説: Distil-Whisper — 大規模擬似ラベリングによるWhisperの知識蒸留
19 / 02 ICLR 2024論文解説: Hybrid LLM — クエリ難易度予測によるコスト効率的なLLMルーティング
19 / 02 論文解説: DiskANN — スケーラブルで高速なフィルタ付き近似最近傍探索
19 / 02 NVIDIA Speech AIモデル解説: Parakeet・NeMoが実現する業界最高精度の音声認識
19 / 02 AWS公式解説: pgvectorインデックス最適化ガイド — IVFFlatとHNSWの深掘り
19 / 02 論文解説: PromptEval — プロンプトエンジニアリングの「何が重要か」を定量評価するフレームワーク
19 / 02 論文解説: FrugalGPT — LLMカスケードで最大98%コスト削減を実現する合成フレームワーク
19 / 02 ICASSP 2024論文解説: Matcha-TTS — Conditional Flow Matchingによる高速音声合成
19 / 02 論文解説: Evaluation-Driven Development and Operations（EDD）— LLMエージェントのライフサイクル評価統合パラダイム
19 / 02 論文解説: pgvectorscale — PostgreSQLをAIアプリケーション向けにスケールさせる拡張
19 / 02 ICLR 2025論文解説: RouteLLM — 選好データで学習するLLMルーティングフレームワーク
19 / 02 NVIDIA解説: Mixture of Expertsが最先端AIモデルを駆動する仕組み
19 / 02 Gemma-2-Llama Swallow: 科学大学×AISが構築した日本語特化LLMの技術詳細
19 / 02 論文解説: Moonshine — エッジデバイス向けリアルタイム音声認識モデル
19 / 02 論文解説: When Better Prompts Hurt — 評価駆動プロンプト開発（EDPD）フレームワーク
19 / 02 論文解説: Survey of Vector Database Management Systems
18 / 02 論文解説: TextGrad — テキスト自動微分によるLLMパイプライン最適化フレームワーク
18 / 02 LaunchDarkly公式解説: AI ConfigsによるLLMプロンプトの段階的ロールアウトとランタイム制御
18 / 02 Langfuse公式解説: OSSプロンプト管理基盤とA/Bテスト実装の技術詳細
18 / 02 論文解説: OPRO — LLMをプロンプト最適化器として活用するフレームワーク
18 / 02 Anthropic解説: A Statistical Approach to Model Evaluations — LLM評価に統計的厳密性を導入する5つの提言
18 / 02 論文解説: Judging LLM-as-a-Judge with MT-Bench and Chatbot Arena
18 / 02 論文解説: DSPy — 宣言的LMパイプラインを自動コンパイルするフレームワーク
18 / 02 技術ブログ解説: NVIDIA Dynamo — MoE推論のための分散サービングフレームワーク
18 / 02 論文解説: Qwen3 Technical Report — 4段階学習パイプラインとMoEアーキテクチャの全体像
18 / 02 論文解説: Transformers are SSMs — Mamba-2とStructured State Space Dualityの理論
18 / 02 NeurIPS 2025 Best Paper解説: Gated Attention — Sigmoidゲートが実現する非線形・スパース・Attention-Sink-Freeなアテンション
18 / 02 論文解説: Gated Delta Networks — Mamba2にデルタルールを統合した線形アテンションの革新
18 / 02 LangChain公式ブログ解説: エージェントのためのContext Engineering — Write/Select/Compress/Isolate実装ガイド
18 / 02 論文解説: Progressive Rollout Strategies for LLM Updates — カナリア・ブルーグリーン・シャドウの段階的ロールアウト戦略
18 / 02 論文解説: Lost in the Middle — LLMが長文コンテキストの中間を無視するU字型性能曲線の発見
18 / 02 Microsoft Research解説: LLMLinguaシリーズ — プロンプト圧縮技術の進化と20倍圧縮の実現
18 / 02 Microsoft Research解説: How to Evaluate LLMs — 本番LLM評価のための完全メトリクスフレームワーク
18 / 02 論文解説: ACON — 自然言語ガイドライン最適化による長期LLMエージェントのコンテキスト圧縮
18 / 02 NVIDIA技術ブログ解説: Mastering LLM Techniques: LLMOps — 本番LLMパイプラインの設計パターン
18 / 02 論文解説: LLMエージェントのメモリ機構サーベイ — 記憶の源泉・形式・操作の統一的分類
18 / 02 論文解説: MemGPT — OS仮想メモリをLLMに適用し無限コンテキストを実現するアーキテクチャ
18 / 02 Anthropic公式ガイド解説: AIエージェントのためのContext Engineering — 4戦略と実装パターン
18 / 02 論文解説: PromptOps — プロダクション向けプロンプトバージョニングとライフサイクル管理
18 / 02 論文解説: LLMLingua-2 — GPT-4蒸留によるタスク非依存プロンプト圧縮で3-6倍高速化
18 / 02 論文解説: Quality Gates in LLM Development — 評価からデプロイまでの品質ゲート体系
18 / 02 論文解説: NoLiMa — 非リテラルマッチングで暴くLLM長文理解の真の限界
18 / 02 論文解説: State of What Art? — マルチプロンプトLLM評価の必要性
18 / 02 論文解説: The Complexity Trap — Observation MaskingはLLM要約と同等以上のコンテキスト管理効率を実現する
18 / 02 論文解説: Chatbot Arena — 人間の選好投票によるLLM評価プラットフォーム
17 / 02 論文解説: Sarathi — Chunked PrefillとDecode Piggybackingで推論レイテンシを最大74%削減
17 / 02 論文解説: SGLang — RadixAttentionによるKVキャッシュ再利用で構造化LLMプログラムを最大5倍高速化
17 / 02 論文解説: Prompt Cache — モジュラーKVキャッシュ再利用でLLM推論TTFTを3.5倍高速化
17 / 02 論文解説: Orca — イテレーションレベルスケジューリングでLLM推論スループットを36.9倍に
17 / 02 論文解説: PagedAttention — 仮想メモリ着想のKVキャッシュ管理でLLM推論スループットを最大4倍に
17 / 02 AWS技術ブログ解説: Amazon Bedrock AgentsをRagasとLLM-as-a-Judgeで評価する実践ガイド
17 / 02 NAACL 2025論文解説: MMAU — 5ドメイン×5能力でLLMエージェントを網羅的に評価するベンチマーク
17 / 02 論文解説: AgentBoard — マルチターンLLMエージェントの分析的評価ボード
17 / 02 Anthropic Engineering解説: Demystifying Evals for AI Agents — エージェント評価の実践的フレームワーク
17 / 02 論文解説: SWE-bench — 実世界GitHubイシューでLLMのソフトウェアエンジニアリング能力を測る
17 / 02 COLING 2025論文解説: Benchmark Self-Evolving — マルチエージェントによる動的LLM評価フレームワーク
17 / 02 Microsoft Research解説: LLM評価のための完全メトリクスフレームワーク — GPU利用率からユーザー満足度まで
17 / 02 LangChain公式解説: マルチエージェントアーキテクチャの4パターン — Subagents・Skills・Handoffs・Router徹底比較
17 / 02 論文解説: LLMの完全バイナリ化に挑む — W(1+1)A(1×4)ポストトレーニング量子化の技術詳細
17 / 02 NeurIPS 2024論文解説: LLM-Check — LLMのHallucination検出手法の体系的評価
17 / 02 NVIDIA技術ブログ解説: GitOpsベースLLMOpsパイプラインによるモデル評価の自動化
17 / 02 Microsoft Research解説: 低ビット量子化がエッジデバイスでのLLM展開を実現する — T-MAC・LUT Tensor Core・Ladderの技術全容
17 / 02 Amazon Bedrock Automated Reasoningによる数学的LLM出力検証
17 / 02 NeurIPS 2025論文解説: Multi-Agent Collaboration via Evolving Orchestration — 強化学習で進化する操り人形師パラダイム
17 / 02 USENIX事例報告: CI/CDにLLM推論を組み込んだ際の信頼性問題と5つのガードレール設計
17 / 02 論文解説: TENET — 三値LLM推論を21倍効率化するスパース対応LUTアーキテクチャ
17 / 02 NVIDIA ToolOrchestra: 小型モデルで大型LLMを指揮する — Orchestrator-8Bの強化学習ベースオーケストレーション
17 / 02 NVIDIA NeMo Guardrailsのストリーミング検証アーキテクチャ解説
17 / 02 Magentic-One: Microsoft発の汎用マルチエージェントシステム — Orchestrator+4専門エージェントによるタスク解決
17 / 02 論文解説: PromptBench — LLM評価を統一するベンチマークライブラリの設計と実装
17 / 02 論文解説: Llama Guard — LLMベースの入出力セーフガードモデル
17 / 02 論文解説: Continual Quantization-Aware Pre-Training — 16-bitから1.58-bitへの最適移行戦略
17 / 02 論文解説: NeMo Guardrails - プログラマブルなLLM安全性制御フレームワーク
17 / 02 論文解説: Mixture-of-Agents — 複数LLMの階層的協調で単体GPT-4oを超える
17 / 02 論文解説: HaloScope — ラベルなしLLM生成文からのHallucination検出
17 / 02 論文解説: 1-bit AI Infra — BitNet b1.58のCPU推論を最大6.17倍高速化するオープンソース基盤
17 / 02 論文解説: The Era of 1-bit LLMs: All Large Language Models are in 1.58 Bits
16 / 02 Google Research最新論文：マルチエージェントシステムのスケーリング法則 - いつ、なぜ有効か
16 / 02 論文解説: MAGNNET - GNNとPPOによるマルチエージェント分散タスク割り当て
16 / 02 LangChain公式解説：LangGraphマルチエージェントワークフローの3パターン
16 / 02 ElasticsearchとLangGraphで構築するマルチエージェントシステム：Reflectionパターンの実践
16 / 02 AWS ML Blog解説: Amazon Bedrock AgentsでのRAGAS & LLM-as-a-Judge評価実装
16 / 02 論文解説: ReAct - Synergizing Reasoning and Acting in Language Models
15 / 02 Anthropic Agent Skills解説：プロダクション環境でのLLMエージェント拡張戦略
15 / 02 論文解説: プロンプト圧縮でトークン数40-60%削減: 文レベル符号化による高速LLM推論
15 / 02 論文解説: LLMサービング性能ベンチマーク: レイテンシ・スループット・コスト最適化の徹底比較
15 / 02 論文解説: LLM生成パラメータのコスト最適化: ベイズ最適化で20-40%削減
15 / 02 論文解説: Beyond ChatGPT: 50社以上の本番LLMデプロイ実態調査とコスト構造分析
15 / 02 論文解説: Infinite-LLM: 分散KVキャッシュで100万トークンのコンテキストを低コストで処理
15 / 02 Meta Code Llama解説: オープンソースで実現する最先端コード生成
15 / 02 論文解説: AI-Nativeソフトウェア開発ライフサイクルとV-Bounceモデル
15 / 02 論文解説: LLMベースのコード生成エージェント完全サーベイ
15 / 02 NVIDIA研究解説: エージェントAIシステムのコード実行セキュリティ
15 / 02 HyPA-RAG: ハイブリッド検索のパラメータ適応最適化
15 / 02 カンファレンス論文解説: AvaTaR - LLMエージェントのツール使用最適化
15 / 02 論文解説: Infini-attention - 無限長コンテキストを実現する圧縮メモリ機構
15 / 02 FAISS完全ガイド: 大規模ベクトル検索の実装と最適化
15 / 02 Anthropic研究解説: プロンプトインジェクション防御の最前線
15 / 02 Speculative RAG: Draftingで推論を高速化する最新手法
15 / 02 論文解説: SE 3.0 - AI-Nativeソフトウェア工学の新パラダイム
15 / 02 RAGアーキテクチャと堅牢性: 設計空間の全体像
15 / 02 RAG完全サーベイ: 基礎から最先端まで進化の全体像
15 / 02 論文解説: Large Language Models as Optimizers（OPRO）
15 / 02 論文解説: AgentBench - LLMエージェント評価の決定版ベンチマーク
15 / 02 DeepMind CodeMender解説: AI駆動型コードセキュリティ改善エージェント
14 / 02 AWS ML Blog解説: Amazon Bedrockの構造化出力 - スキーマ準拠AI応答の実現
14 / 02 論文解説: Hallucination Detection and Mitigation - LLMハルシネーションの多面的検出と緩和戦略
14 / 02 論文解説: STED and Consistency Scoring - LLM構造化出力の信頼性評価フレームワーク
14 / 02 EMNLP 2024論文解説: MiniCheck - 高速・高精度なLLMファクトチェック
14 / 02 NeurIPS 2024論文解説: HaloScope - 未ラベルLLM生成データを活用したハルシネーション検出

2022

23 / 11 Google Adsenseのads.txtをGithub pagesでホストされているjekyllのサイトへデプロイする方法
14 / 11 書籍『テスト駆動開発』を読みつつ、Pythonで書き直してみる。
11 / 11 第３章補足：書籍『SolidityとEthereumによる実践スマートコントラクト開発 ―Truffle Suiteを用いた開発の基礎からデプロイまで』
10 / 11 AWS CLIでよく使う基本的なコマンド(逆引き)
05 / 11 参考図書まとめ
04 / 11 DS/MLEのためのおススメYoutube Channel
04 / 11 DS/MLEのためのおススメサイト
03 / 11 機械学習系学会
02 / 11 2022年度11月現在：AI企業の募集要項とリンクまとめ

2020

07 / 05 Ubuntu20.04でgcc-9からgcc-8に変更する方法