本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (Kwon et al., 2023) の解説記事です。 論文概要(Abstract) LLMサービングにおいて、KV(Key-Value)キャッシュのメモリ管理がスループットの主要なボトルネックとなっている。著者らは...
本記事は ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models の解説記事です。 論文概要(Abstract) ToolBeHonestは、ツール拡張LLMにおける幻覚(Hallucination)問題を多層的に診断するベンチマークであ...
本記事は Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use の解説記事です。 論文概要(Abstract) LLMベースのエージェントは、ツールの説明文(description)に大きく依存してツール選択を行う。しかし既存のツール説明文は人間向けに書かれており、LLMが正しく解釈できないケースが多い...
本記事は LLM Agents Making Agent Tools の解説記事です。 論文概要(Abstract) ToolMakerは、LLMエージェントが研究論文とそのコードリポジトリからツールを自律的に構築するフレームワークである。著者らは、GitHubリポジトリURLとタスク記述を入力として与えると、依存関係のインストール、コード生成、自己修正デバッグを自動で行うシステムを構築...
本記事は ToolACE: Winning the Points of LLM Function Calling の解説記事です。 論文概要(Abstract) ToolACEは、LLMのFunction Calling能力を向上させるための高品質な訓練データを自動生成するパイプラインである。著者らは、(1)自己進化的合成プロセスによる26,507個の多様なAPI定義の構築、(2)複数エ...
本記事は Efficient Tool Use with Chain-of-Abstraction Reasoning の解説記事です。 論文概要(Abstract) Chain-of-Abstraction(CoA)は、LLMがツールを用いた多段階推論を効率的に行うための手法である。著者らは、LLMにまず抽象的なプレースホルダを含む推論チェーンを生成させ、その後でドメインツールを呼び出...
ブログ概要(Summary) 本記事は Unit 42: New Prompt Injection Attack Vectors Through MCP Sampling(2025年12月5日公開、著者: Yongzhe Huang, Akshata Rao, Changjiang Li, Yang Ji, Wenjun Hu)の解説記事です。 Palo Alto NetworksのUn...
論文概要(Abstract) AvaTaR(Automated and Versatile Agent for Tool-Assisted Retrieval)は、LLMエージェントが提供されたツールを効果的に活用できるよう自動最適化するフレームワークである。Actor LLM(ツールを使ってタスクを実行するエージェント)とComparator LLM(正例と負例を対照的に分析してプロンプ...
論文概要(Abstract) 本記事は arXiv:2406.05925 の解説記事です。 AgentDojoは、LLMエージェントに対するプロンプトインジェクション(PI)攻撃と防御を動的に評価するためのフレームワークである。ETH Zurichの SPY Labが開発し、静的データセットでは捉えられない攻防のインタラクションを動的環境でシミュレーションする。97のタスク、629のイン...
論文概要(Abstract) 本論文は、LLMのFunction Calling能力をゼロショットで強化するための複合的戦略を提案している。具体的には、(1)関数定義のプロンプトフォーマット戦略、(2)Function CallingデータとInstruction Followingデータのブレンド、(3)Decision Tokenと呼ばれる新規の条件分岐トークン、(4)Chain-of...