本記事は Anthropic Engineering Blog: Introducing advanced tool use on the Claude Developer Platform(2025年11月24日公開)の解説記事です。 ブログ概要(Summary) Anthropicは2025年11月にClaude Developer Platformへ3つのAdvanced Tool...
論文概要(Abstract) 本記事は arXiv:2504.19793 の解説記事です。 ToolHijackerは、LLMエージェントのツール選択パイプラインに対する新たなプロンプトインジェクション攻撃手法である。著者らは、攻撃者がツールライブラリに悪意あるツールドキュメントを注入し、LLMエージェントに正規ツールの代わりに悪意あるツールを選択させる手法を提案している。攻撃をドキュメ...
本記事は EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees (arXiv:2406.14066) の解説記事です。 論文概要(Abstract) 本論文は、Speculative Decodingの改良手法EAGLE-2を提案している。先行手法EAGLE-1(1層のAutoregressive He...
本記事は Fast Inference from Transformers via Speculative Decoding (arXiv:2211.17192) の解説記事です。 論文概要(Abstract) 本論文は、LLMの自己回帰推論を高速化するSpeculative Decoding(投機的デコーディング)を提案している。小さなドラフトモデル(draft model)でK個のト...
本記事は Orca: A Distributed Serving System for Transformer-Based Generative Models の解説記事です。 論文概要(Abstract) 本論文は、Transformerベースの生成モデルのサービングにおけるスケジューリング問題に対し、Continuous Batching(別名: iteration-level sc...
本記事は Efficiently Programming Large Language Models using SGLang (arXiv:2312.07910) の解説記事です。 論文概要(Abstract) 本論文は、LLMの呼び出しを効率的にプログラミングするためのフロントエンドDSL(SGLang言語)と、バックエンドのKVキャッシュ再利用最適化(RadixAttention)...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (arXiv:2309.06180) の解説記事です。 論文概要(Abstract) 本論文は、LLM推論サービングにおけるKVキャッシュのメモリ管理問題に対し、OSの仮想メモリ管理からインスパイアされたPagedAt...
論文概要(Abstract) 本記事は https://arxiv.org/abs/2501.10236 の解説記事です。 自律AIエージェントがユーザーの代理で外部サービスにアクセスする際、「このエージェントは誰の権限で何をしてよいのか」を暗号的に保証する仕組みが欠けている。本論文では、署名付きDelegation Token(DT)、階層的ケイパビリティモデル、形式的な認可ロジックか...
論文概要(Abstract) 本記事は https://www.amazon.science/publications/cedar-a-new-language-for-expressive-fast-safe-and-analyzable-authorization の解説記事です。 Cedarは、AWSが開発したオープンソースの認可ポリシー言語であり、「ergonomic(使いやすい...
本記事は Multi-Agent collaboration patterns with Strands Agents and Amazon Nova(AWS Machine Learning Blog)の解説記事です。 ブログ概要(Summary) AWSが開発したオープンソースのPython SDK「Strands Agents」を用いたマルチエージェント協調パターンの解説ブログであ...