ブログ概要(Summary) Elasticsearch Search LabsのAlex Salgado氏による2025年11月の公式ブログ記事。LangGraphのReflectionパターンを用いて、複数のLLMエージェントがElasticsearchのハイブリッド検索(BM25 + ELSER) と長期記憶(LTM) を活用しながら、インシデントログの根本原因分析を自己修正するシス...
ブログ概要 AWSは2025年初頭、Amazon Bedrock Agentsの品質評価を自動化する包括的な手法を公開しました。本ブログでは、RAGASフレームワークとLLM-as-a-Judgeを組み合わせることで、エージェント評価の精度を人間評価と同等(85%一致率)に保ちながら、コストを98%削減(500-5000倍効率化)した実装を詳述しています。 この記事は Zenn記事: L...
論文概要(Abstract) ReAct(Reasoning + Acting)は、大規模言語モデル(LLM)が推論トレース(Thought)と行動(Action)を交互に生成し、外部環境と相互作用しながらタスクを解決するパラダイムです。Chain-of-Thought(CoT)の推論能力と、外部知識ベースへのアクセスを組み合わせることで、幻覚(hallucination)やエラー伝播を大...
Anthropic Agent Skills解説:プロダクション環境でのLLMエージェント拡張戦略 概要 Anthropic社が2025年に発表したAgent Skillsは、LLMエージェントの能力を「モジュール式のリソースパッケージ」として拡張する新しいアーキテクチャパターンです。従来の「タスク特化型エージェントを個別構築する」アプローチではなく、「汎用エージェントにドメイン固有の知...
論文概要 タイトル: プロンプト圧縮でトークン数40-60%削減: 文レベル符号化による高速LLM推論 arXiv ID: 2404.08189 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) プロンプトを文単位でエンコードし、重要度スコアリングでトップ40-60%を選択することで、トークン数を削減しながら品質を維持する手法。MMLU、GSM8K、Hum...
論文概要 タイトル: LLMサービング性能ベンチマーク: レイテンシ・スループット・コスト最適化の徹底比較 arXiv ID: 2410.18424 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) vLLM、TensorRT-LLM、SGLangなど10種類以上のLLMサービングシステムを、レイテンシ、スループット、コストの3軸で徹底比較したベンチマーク...
論文概要 タイトル: LLM生成パラメータのコスト最適化: ベイズ最適化で20-40%削減 arXiv ID: 2311.09668 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) temperature、top_p、max_tokensなどの生成ハイパーパラメータをベイズ最適化で調整し、品質制約を満たしつつコストを20-40%削減。要約タスクでは「te...
論文概要 タイトル: Beyond ChatGPT: 50社以上の本番LLMデプロイ実態調査とコスト構造分析 arXiv ID: 2310.05869 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) 医療・金融・EC等の53社を対象に、本番環境でのLLMデプロイパターンとコスト構造を分析。推論コストが全体の60-75%を占め、主な障害はコンテキスト長超過...
論文概要 タイトル: Infinite-LLM: 分散KVキャッシュで100万トークンのコンテキストを低コストで処理 arXiv ID: 2401.14489 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) KVキャッシュをGPU間で分散し、単一GPUでOOMが発生する長コンテキスト(128K-1Mトークン)を処理可能にする手法。レイテンシは15-25%...
Meta Code Llama解説: オープンソースで実現する最先端コード生成 ブログ概要 MetaのCode Llamaは、Llama 2をベースにコード特化型のファインチューニングを施した大規模言語モデルです。商用利用可能なオープンソースとして公開され、HumanEvalで53.7%、MBPPで56.2%という当時最高水準の性能を達成しました。 ブログ情報: 公開元: Met...