ブログ概要(Summary) Google ResearchのYubin Kim氏とXin Liu氏による2026年1月28日発表の最新研究成果。180種類のエージェントアーキテクチャ(Single-agent、Independent、Centralized、Decentralized、Hybrid)を、GPT、Gemini、Claudeの3モデル×4ベンチマークで徹底評価しました。衝撃的...
論文概要(Abstract) MAGNNET(Multi-Agent Graph Neural Network-based Efficient Task Allocation)は、グラフニューラルネットワーク(GNN)とCentralized Training with Decentralized Execution(CTDE) パラダイムを融合し、UAV(無人航空機)とUGV(無人地上車...
ブログ概要(Summary) LangChain公式ブログによる2024年1月(2025年2月更新)のマルチエージェントワークフロー決定版ガイド。Collaboration、Supervisor、Hierarchical Teamsの3つの設計パターンを、グラフ理論(状態機械)の観点から解説します。各パターンの適用場面、トレードオフ、実装方法を、PythonおよびJavaScriptのコー...
ブログ概要(Summary) Elasticsearch Search LabsのAlex Salgado氏による2025年11月の公式ブログ記事。LangGraphのReflectionパターンを用いて、複数のLLMエージェントがElasticsearchのハイブリッド検索(BM25 + ELSER) と長期記憶(LTM) を活用しながら、インシデントログの根本原因分析を自己修正するシス...
ブログ概要 AWSは2025年初頭、Amazon Bedrock Agentsの品質評価を自動化する包括的な手法を公開しました。本ブログでは、RAGASフレームワークとLLM-as-a-Judgeを組み合わせることで、エージェント評価の精度を人間評価と同等(85%一致率)に保ちながら、コストを98%削減(500-5000倍効率化)した実装を詳述しています。 この記事は Zenn記事: L...
論文概要(Abstract) ReAct(Reasoning + Acting)は、大規模言語モデル(LLM)が推論トレース(Thought)と行動(Action)を交互に生成し、外部環境と相互作用しながらタスクを解決するパラダイムです。Chain-of-Thought(CoT)の推論能力と、外部知識ベースへのアクセスを組み合わせることで、幻覚(hallucination)やエラー伝播を大...
Anthropic Agent Skills解説:プロダクション環境でのLLMエージェント拡張戦略 概要 Anthropic社が2025年に発表したAgent Skillsは、LLMエージェントの能力を「モジュール式のリソースパッケージ」として拡張する新しいアーキテクチャパターンです。従来の「タスク特化型エージェントを個別構築する」アプローチではなく、「汎用エージェントにドメイン固有の知...
論文概要 タイトル: プロンプト圧縮でトークン数40-60%削減: 文レベル符号化による高速LLM推論 arXiv ID: 2404.08189 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) プロンプトを文単位でエンコードし、重要度スコアリングでトップ40-60%を選択することで、トークン数を削減しながら品質を維持する手法。MMLU、GSM8K、Hum...
論文概要 タイトル: LLMサービング性能ベンチマーク: レイテンシ・スループット・コスト最適化の徹底比較 arXiv ID: 2410.18424 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) vLLM、TensorRT-LLM、SGLangなど10種類以上のLLMサービングシステムを、レイテンシ、スループット、コストの3軸で徹底比較したベンチマーク...
論文概要 タイトル: LLM生成パラメータのコスト最適化: ベイズ最適化で20-40%削減 arXiv ID: 2311.09668 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) temperature、top_p、max_tokensなどの生成ハイパーパラメータをベイズ最適化で調整し、品質制約を満たしつつコストを20-40%削減。要約タスクでは「te...