Home
0h-n0 TechBLog
キャンセル

✍️ Anthropic解説: Effective Context Engineering for AI Agents — LLMの注意予算を最適化する実践戦略

ブログ概要(Summary) Anthropicの応用AIチームが2025年9月に公開した技術ブログ。LLMアプリケーション開発がプロンプトエンジニアリングから「コンテキストエンジニアリング」へ移行している現状を整理し、LLMの有限な「注意予算」(Attention Budget)を最適化するための3つの戦略を提案する: (1) Compaction(コンテキスト圧縮)、(2) 構造化ノー...

📄 論文解説: One Router, Many Models — Cross-Attentionによるコスト考慮型LLMルーティング

論文概要(Abstract) One Router, Many Modelsは、Microsoft Researchが提案したCross-Attentionベースのソフトルーティングメカニズムです。従来の分類ベースルーティング(1モデルを選択)とは異なり、クエリ表現とモデル能力埋め込みの間でCross-Attentionを計算し、ソフトルーティング重みを生成します。さらにコスト考慮パラメー...

📄 論文解説: Agentic AI Systems in Financial Services — マルチエージェントLLMの信頼性設計パターン

論文概要(Abstract) 本論文は、金融サービスにおけるエージェンティックAIシステムの課題とベストプラクティスを調査する。12の金融機関での本番デプロイメントから得られた知見に基づき、マルチエージェントフレームワーク、エラーハンドリング、フォールバックポリシー、観測性要件、規制コンプライアンスの課題を体系的に分析する。特に、LLMパイプラインの自律的エージェントにおけるシステム信頼性...

✍️ Google ADK解説: マルチエージェントアプリケーション構築のためのオープンソースフレームワーク

ブログ概要(Summary) Google Agent Development Kit(ADK)は、Google Cloud NEXT 2025で発表されたオープンソースのマルチエージェントフレームワークである。Geminiを中心としつつLiteLLMを通じたマルチモデル対応、Sequential/Parallel/Loopのワークフローエージェント、MCP(Model Context P...

📄 論文解説: TTT-E2E — テスト時学習でロングコンテキストLLMのメモリ・速度限界を突破する

論文概要(Abstract) Transformerは全トークン間のAttentionにより高い言語モデリング性能を発揮するが、計算量が系列長$n$に対して$O(n^2)$で増大し、KV Cacheのメモリも$O(n)$で膨張する。一方でMambaやGated DeltaNet等のRNN系アーキテクチャは$O(n)$の推論コストを実現するが、固定長の隠れ状態がボトルネックとなり長距離依存の...

📄 論文解説: Strategic and Selective Mixtures — LLMルーティングとカスケードの実装判断ガイド

論文概要(Abstract) LLMデプロイメントは単一モデルから複数モデルの混合利用へ移行しつつある。本サーベイは、その中でもルーティング(軽量モデルがクエリに最適なLLMを選択)とカスケード(信頼度の高い回答が得られるまでモデルを順次呼び出し)の2つの戦略を体系的にレビューする。各戦略の長所・短所、コスト効率分析、障害モード分析、そして可用性最適化 vs 品質最適化の観点からの使い分け...

📄 論文解説: Routing to the Expert — 報酬モデルガイドによるLLMアンサンブルルーティング

論文概要(Abstract) REGROUP(Reward-guided Ensemble and Group Optimization for LLM Performance)は、報酬モデル(Reward Model)のスコアを利用して、各クエリに最適なLLMを自動選択する軽量ルーティングフレームワークです。全モデルのフルアンサンブルと比較して、50%のコストで95%の品質を達成し、単一...

📄 論文解説: Blended RAG — セマンティック検索×BM25×メタデータフィルタリングで検索精度84.6%を達成

論文概要(Abstract) Blended RAGは、セマンティック検索(Dense Vector)とBM25(Sparse/Keyword)をRRFで融合し、さらにメタデータフィルタリングを加えることで、企業向けRAGシステムの検索精度を大幅に向上させた手法です。 企業ドキュメント検索の評価において、セマンティック検索単体のHit Rate@5が72.5%であったのに対し、Blend...

📄 EMNLP 2023論文解説: Query Rewriting for Retrieval-Augmented Large Language Models

論文概要(Abstract) RAGシステムではユーザーのクエリをそのまま検索器に渡すが、ユーザーの自然言語クエリと検索器が必要とするクエリ形式の間にはギャップがある。本論文は従来のRetrieve-then-ReadパイプラインをRewrite-Retrieve-Readに拡張し、検索前にクエリを書き換えるステップを導入する。さらに、小規模言語モデル(T5)をRewriterとして訓練し...

✍️ NVIDIA解説: マルチエージェントSelf-Corrective RAGシステムの構築

ブログ概要(Summary) NVIDIA Developer Blogが公開したこの記事は、ログ分析ドメインに特化したSelf-Corrective RAGシステムの構築方法を解説している。LangGraphのStateGraphでエージェントワークフローを定義し、BM25(字句マッチ)とFAISS(セマンティック検索)のハイブリッド検索、NVIDIA NeMo Retrieverによる...