Home
0h-n0 TechBLog
キャンセル

📄 NeurIPS 2024論文解説: AvaTaR - 対照推論によるLLMエージェントのツール利用最適化

論文概要(Abstract) AvaTaR(Automated and Versatile Agent for Tool-Assisted Retrieval)は、LLMエージェントが提供されたツールを効果的に活用できるよう自動最適化するフレームワークである。Actor LLM(ツールを使ってタスクを実行するエージェント)とComparator LLM(正例と負例を対照的に分析してプロンプ...

📄 論文解説: AgentDojo — LLMエージェントのプロンプトインジェクション攻防を動的に評価するフレームワーク

論文概要(Abstract) 本記事は arXiv:2406.05925 の解説記事です。 AgentDojoは、LLMエージェントに対するプロンプトインジェクション(PI)攻撃と防御を動的に評価するためのフレームワークである。ETH Zurichの SPY Labが開発し、静的データセットでは捉えられない攻防のインタラクションを動的環境でシミュレーションする。97のタスク、629のイン...

📄 NAACL 2025論文解説: Decision TokenとデータブレンドによるLLMのFunction Calling能力強化

論文概要(Abstract) 本論文は、LLMのFunction Calling能力をゼロショットで強化するための複合的戦略を提案している。具体的には、(1)関数定義のプロンプトフォーマット戦略、(2)Function CallingデータとInstruction Followingデータのブレンド、(3)Decision Tokenと呼ばれる新規の条件分岐トークン、(4)Chain-of...

📄 論文解説: InjecAgent — ツール統合LLMエージェントに対する間接プロンプトインジェクションのベンチマーク

論文概要(Abstract) 本記事は arXiv:2403.02817 の解説記事です。 InjecAgentは、ツール統合LLMエージェントに対する間接プロンプトインジェクション(Indirect Prompt Injection, IPI) を体系的に評価する初の専用ベンチマークである。著者らは攻撃を「ユーザー目的妨害」と「悪意あるツール実行」の2つのカテゴリに分類し、17種のツー...

📄 論文解説: Toolformer - 言語モデルが自律的にツール利用を学習する仕組み

論文概要(Abstract) 言語モデル(LM)はゼロショット設定で高い能力を示すが、算術計算や事実検索、時間的推論といった基本タスクでは依然として課題がある。Toolformerは、LMがAPI呼び出しを自律的に学習する手法であり、自己教師あり方式でいつ・どのツールを・どの引数で呼び出すかを判断できるモデルを構築する。著者らの報告によると、6.7BパラメータのToolformerがGPT...

✍️ Microsoft MSRCの間接プロンプトインジェクション防御戦略:Spotlighting・Prompt Shields・決定論的緩和の多層防御

ブログ概要(Summary) 本記事は Microsoft MSRC Blog: How Microsoft Defends Against Indirect Prompt Injection Attacks(2025年7月29日公開、著者: Andrew Paverd)の解説記事です。 Microsoftは間接プロンプトインジェクション(Indirect PI)に対する多層防御戦略を公...

✍️ Anthropic Prompt Caching解説: Claude APIのキャッシュアーキテクチャとコスト最適化の技術詳細

本記事は Anthropic Blog: Prompt caching with Claude(2024年8月14日公開、2024年12月17日GA)の解説記事です。 ブログ概要(Summary) AnthropicはClaude APIにPrompt Caching機能を導入し、APIリクエスト間で共通するプロンプト部分をサーバー側でキャッシュして再利用する仕組みを提供している。公式ブ...

📄 論文解説: ToolHijacker — LLMエージェントのツール選択に対するプロンプトインジェクション攻撃

論文概要(Abstract) 本記事は arXiv:2504.19793 の解説記事です。 ToolHijackerは、LLMエージェントのツール選択パイプラインに対する新たなプロンプトインジェクション攻撃手法である。著者らは、攻撃者がツールライブラリに悪意あるツールドキュメントを注入し、LLMエージェントに正規ツールの代わりに悪意あるツールを選択させる手法を提案している。攻撃をドキュメ...