Anthropic Agent Skills解説:プロダクション環境でのLLMエージェント拡張戦略 概要 Anthropic社が2025年に発表したAgent Skillsは、LLMエージェントの能力を「モジュール式のリソースパッケージ」として拡張する新しいアーキテクチャパターンです。従来の「タスク特化型エージェントを個別構築する」アプローチではなく、「汎用エージェントにドメイン固有の知...
論文概要 タイトル: プロンプト圧縮でトークン数40-60%削減: 文レベル符号化による高速LLM推論 arXiv ID: 2404.08189 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) プロンプトを文単位でエンコードし、重要度スコアリングでトップ40-60%を選択することで、トークン数を削減しながら品質を維持する手法。MMLU、GSM8K、Hum...
論文概要 タイトル: LLMサービング性能ベンチマーク: レイテンシ・スループット・コスト最適化の徹底比較 arXiv ID: 2410.18424 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) vLLM、TensorRT-LLM、SGLangなど10種類以上のLLMサービングシステムを、レイテンシ、スループット、コストの3軸で徹底比較したベンチマーク...
論文概要 タイトル: LLM生成パラメータのコスト最適化: ベイズ最適化で20-40%削減 arXiv ID: 2311.09668 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) temperature、top_p、max_tokensなどの生成ハイパーパラメータをベイズ最適化で調整し、品質制約を満たしつつコストを20-40%削減。要約タスクでは「te...
論文概要 タイトル: Beyond ChatGPT: 50社以上の本番LLMデプロイ実態調査とコスト構造分析 arXiv ID: 2310.05869 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) 医療・金融・EC等の53社を対象に、本番環境でのLLMデプロイパターンとコスト構造を分析。推論コストが全体の60-75%を占め、主な障害はコンテキスト長超過...
論文概要 タイトル: Infinite-LLM: 分散KVキャッシュで100万トークンのコンテキストを低コストで処理 arXiv ID: 2401.14489 対象読者: 修士学生レベル(機械学習・LLMの基礎知識を持つエンジニア・研究者) KVキャッシュをGPU間で分散し、単一GPUでOOMが発生する長コンテキスト(128K-1Mトークン)を処理可能にする手法。レイテンシは15-25%...
Meta Code Llama解説: オープンソースで実現する最先端コード生成 ブログ概要 MetaのCode Llamaは、Llama 2をベースにコード特化型のファインチューニングを施した大規模言語モデルです。商用利用可能なオープンソースとして公開され、HumanEvalで53.7%、MBPPで56.2%という当時最高水準の性能を達成しました。 ブログ情報: 公開元: Met...
論文解説: AI-Nativeソフトウェア開発ライフサイクルとV-Bounceモデル 論文概要 本論文は、AI時代に適応した新しいソフトウェア開発ライフサイクル(SDLC)を提案します。従来のV-モデルを再設計した「V-Bounceモデル」により、AIが実装を担当し、人間は検証・確認者としての役割にシフトする paradigm shift を実現します。 論文情報: arXiv ...
論文解説: LLMベースのコード生成エージェント完全サーベイ 論文概要 本サーベイ論文は、LLM(大規模言語モデル)を活用したコード生成エージェントの包括的な分析を提供します。従来のコード生成手法との3つの重要な違い(自律性、適用範囲、エンジニアリング重視)を明確にし、2022年から2025年6月までの100本の高品質論文を体系的にレビューしています。 論文情報: arXiv I...
NVIDIA研究解説: エージェントAIシステムのコード実行セキュリティ ブログ概要 NVIDIA AI Red Teamによる公式テックブログ “How Code Execution Drives Key Risks in Agentic AI Systems” (2025年) は、AIエージェントが動的に生成したコードを実行する際の 根本的なセキュリティリスク を詳述しています。本記...