Home
0h-n0 TechBLog
キャンセル

✍️ NVIDIA解説: ログ解析マルチエージェント自己修正型RAGシステム — Nemotronとハイブリッド検索の実装

本記事は https://developer.nvidia.com/blog/build-a-log-analysis-multi-agent-self-corrective-rag-system-with-nvidia-nemotron/ の解説記事です。 ブログ概要(Summary) NVIDIAが公開したこの技術ブログでは、LangGraphの有向グラフベースのワークフローを用いて...

✍️ Anthropic解説: Claude APIプロンプトキャッシュ — コスト90%削減・レイテンシ85%短縮の実装と料金設計

本記事は Anthropic公式ブログ: Prompt caching with Claude および Claude APIドキュメント の解説記事です。 ブログ概要(Summary) Anthropicは2024年8月にClaude APIのプロンプトキャッシュ機能をGA(一般提供)としてリリースした。この機能は、APIコール間で頻繁に使われるコンテキスト(システムプロンプト、ドキュメ...

📄 論文解説: Agentic RAG with Knowledge Graphs for Clinical Practice Guideline Retrieval

本記事は https://arxiv.org/abs/2503.09516 の解説記事です。 論文概要(Abstract) Reserら(2025)は、臨床診療ガイドライン(CPG)の検索と情報合成を目的としたAgentic RAGシステムを提案している。本システムの特徴は、Knowledge Graph(KG)ベースの検索とベクトル検索の2つの検索戦略を、スーパーバイザーエージェントが...

📄 論文解説: Prompt Cache — モジュラーAttention再利用による低レイテンシLLM推論

本記事は arXiv:2311.04934 の解説記事です。 論文概要(Abstract) LLM推論におけるプロンプト処理は、トークン長が1,000を超えることが一般的になりレイテンシの支配的要因となっている。著者らは、異なるLLMクエリ間でプロンプトの共通テキストセグメント(システムプロンプト、ドキュメントコンテキスト等)のAttention States(KVキャッシュ)を再利用す...

📄 論文解説: CacheBlend — 選択的KV再計算によるRAGサービングの高速化

論文概要(Abstract) CacheBlendは、RAGシステムで検索された文書チャンクのKVキャッシュを事前計算・永続保存し、推論時に「選択的再計算(Selective Recomputation)」で効率的に結合する手法を提案する。全トークンのKVキャッシュを再計算する従来手法と異なり、チャンク間のAttention依存が強いトークンのみを選択的に再計算することで、計算量を85%削...

📄 ICLR 2025 Spotlight論文解説: TheAgentCompany — 実世界タスクでのLLMエージェントベンチマーク

論文概要(Abstract) TheAgentCompanyは、LLMエージェントが実世界の業務タスクをどの程度自律的に遂行できるかを評価するベンチマークである。ソフトウェア企業の環境をセルフホスト型のインフラで再現し、GitLab・RocketChat・ownCloud・Planeなど実務で使われるツール群を統合した175の業務タスクを提供する。最も高性能なエージェントでも自律的に完了で...

✍️ NVIDIA解説: 合成データによるRAGパイプライン評価・最適化 — NeMo Curator実践ガイド

ブログ概要(Summary) NVIDIA Technical Blogの本記事は、合成データを用いたRAGパイプラインの自動評価・最適化フレームワークを解説しています。NVIDIA NeMo CuratorとNIM microservicesを活用し、(1) 高品質な合成QAペアの自動生成、(2) 埋め込みモデルの定量評価、(3) Hard-Negative Miningによるファインチ...

✍️ AWS公式ブログ解説: Amazon MemoryDBによる永続セマンティックキャッシュでLLMワークロードを高速化・コスト削減

ブログ概要(Summary) AWS公式ブログは、Amazon MemoryDB(Redis互換のインメモリデータベース)をセマンティックキャッシュとして活用し、生成AIワークロードの速度向上とコスト削減を実現するアーキテクチャを提示する。MemoryDBのベクトル検索機能を用いてクエリの意味的類似度を判定し、類似クエリに対してキャッシュから即座に応答を返す。AWSの実験では、LLM推論コ...

✍️ Anthropic解説: Code Execution with MCP — プログラマティックツール呼び出しでトークン消費98.7%削減

本記事は Anthropic Engineering Blog: Code execution with MCP: building more efficient AI agents の解説記事です。 ブログ概要(Summary) Anthropic のエンジニアリングチームは、MCP サーバと連携する LLM エージェントの効率化のために、コード実行によるプログラマティックツール呼び出...

📄 論文解説: LLMエージェント評価・ベンチマークの包括的サーベイ(KDD 2025)

論文概要(Abstract) 本論文は、LLM(大規模言語モデル)ベースのエージェントの評価とベンチマークに関する包括的なサーベイである。著者らは、急速に拡大するLLMエージェント評価の研究領域を2次元の分類体系で整理している。第1の次元は「何を評価するか」(評価目標)であり、エージェントの行動・能力・信頼性・安全性の4カテゴリに分類される。第2の次元は「どう評価するか」(評価プロセス)で...