📄 論文解説: ToolBeHonest — ツール使用LLMの幻覚を多層的に診断するベンチマーク

本記事は ToolBeHonest: A Multi-level Hallucination Diagnostic Benchmark for Tool-Augmented Large Language Models の解説記事です。論文概要（Abstract） ToolBeHonestは、ツール拡張LLMにおける幻覚（Hallucination）問題を多層的に診断するベンチマークであ...

18/03/2026 blog paper

tool-use LLM hallucination +3

📄 論文解説: Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use

本記事は Learning to Rewrite Tool Descriptions for Reliable LLM-Agent Tool Use の解説記事です。論文概要（Abstract） LLMベースのエージェントは、ツールの説明文（description）に大きく依存してツール選択を行う。しかし既存のツール説明文は人間向けに書かれており、LLMが正しく解釈できないケースが多い...

18/03/2026 blog paper

tool-use LLM function-calling +3

📄 論文解説: LLM Agents Making Agent Tools — 研究論文からツールを自動構築するToolMaker

本記事は LLM Agents Making Agent Tools の解説記事です。論文概要（Abstract） ToolMakerは、LLMエージェントが研究論文とそのコードリポジトリからツールを自律的に構築するフレームワークである。著者らは、GitHubリポジトリURLとタスク記述を入力として与えると、依存関係のインストール、コード生成、自己修正デバッグを自動で行うシステムを構築...

18/03/2026 blog paper

tool-use LLM agent +3

📄 論文解説: ToolACE — LLM Function Calling訓練データの自動生成パイプライン

本記事は ToolACE: Winning the Points of LLM Function Calling の解説記事です。論文概要（Abstract） ToolACEは、LLMのFunction Calling能力を向上させるための高品質な訓練データを自動生成するパイプラインである。著者らは、（1）自己進化的合成プロセスによる26,507個の多様なAPI定義の構築、（2）複数エ...

18/03/2026 blog paper

tool-use LLM function-calling +3

📄 論文解説: Efficient Tool Use with Chain-of-Abstraction Reasoning

本記事は Efficient Tool Use with Chain-of-Abstraction Reasoning の解説記事です。論文概要（Abstract） Chain-of-Abstraction（CoA）は、LLMがツールを用いた多段階推論を効率的に行うための手法である。著者らは、LLMにまず抽象的なプレースホルダを含む推論チェーンを生成させ、その後でドメインツールを呼び出...

18/03/2026 blog paper

tool-use LLM function-calling +3

✍️ Unit 42セキュリティレポート解説: MCPサンプリング経由の新しいプロンプトインジェクション攻撃ベクトル

ブログ概要（Summary）本記事は Unit 42: New Prompt Injection Attack Vectors Through MCP Sampling（2025年12月5日公開、著者: Yongzhe Huang, Akshata Rao, Changjiang Li, Yang Ji, Wenjun Hu）の解説記事です。 Palo Alto NetworksのUn...

17/03/2026 blog tech_blog

MCP prompt-injection security +7

📄 NeurIPS 2024論文解説: AvaTaR - 対照推論によるLLMエージェントのツール利用最適化

論文概要（Abstract） AvaTaR（Automated and Versatile Agent for Tool-Assisted Retrieval）は、LLMエージェントが提供されたツールを効果的に活用できるよう自動最適化するフレームワークである。Actor LLM（ツールを使ってタスクを実行するエージェント）とComparator LLM（正例と負例を対照的に分析してプロンプ...

17/03/2026 blog paper

tool-use llm-agents contrastive-reasoning +3

📄 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻防を動的に評価するフレームワーク

論文概要（Abstract）本記事は arXiv:2406.05925 の解説記事です。 AgentDojoは、LLMエージェントに対するプロンプトインジェクション（PI）攻撃と防御を動的に評価するためのフレームワークである。ETH Zurichの SPY Labが開発し、静的データセットでは捉えられない攻防のインタラクションを動的環境でシミュレーションする。97のタスク、629のイン...

17/03/2026 blog paper

prompt-injection evaluation-framework LLM-agent +7

📄 NAACL 2025論文解説: Decision TokenとデータブレンドによるLLMのFunction Calling能力強化

論文概要（Abstract）本論文は、LLMのFunction Calling能力をゼロショットで強化するための複合的戦略を提案している。具体的には、（1）関数定義のプロンプトフォーマット戦略、（2）Function CallingデータとInstruction Followingデータのブレンド、（3）Decision Tokenと呼ばれる新規の条件分岐トークン、（4）Chain-of...

17/03/2026 blog paper

function-calling llm tool-use +4

📄 論文解説: InjecAgent — ツール統合LLMエージェントに対する間接プロンプトインジェクションのベンチマーク

論文概要（Abstract）本記事は arXiv:2403.02817 の解説記事です。 InjecAgentは、ツール統合LLMエージェントに対する間接プロンプトインジェクション（Indirect Prompt Injection, IPI）を体系的に評価する初の専用ベンチマークである。著者らは攻撃を「ユーザー目的妨害」と「悪意あるツール実行」の2つのカテゴリに分類し、17種のツー...

17/03/2026 blog paper

prompt-injection benchmark LLM-agent +7

1
2
3
...
66
1 / 66