📄 論文解説: Toolformer - 言語モデルが自律的にツール利用を学習する仕組み

論文概要（Abstract）言語モデル（LM）はゼロショット設定で高い能力を示すが、算術計算や事実検索、時間的推論といった基本タスクでは依然として課題がある。Toolformerは、LMがAPI呼び出しを自律的に学習する手法であり、自己教師あり方式でいつ・どのツールを・どの引数で呼び出すかを判断できるモデルを構築する。著者らの報告によると、6.7BパラメータのToolformerがGPT...

17/03/2026 blog paper

tool-use function-calling llm +3

✍️ Microsoft MSRCの間接プロンプトインジェクション防御戦略：Spotlighting・Prompt Shields・決定論的緩和の多層防御

ブログ概要（Summary）本記事は Microsoft MSRC Blog: How Microsoft Defends Against Indirect Prompt Injection Attacks（2025年7月29日公開、著者: Andrew Paverd）の解説記事です。 Microsoftは間接プロンプトインジェクション（Indirect PI）に対する多層防御戦略を公...

17/03/2026 blog tech_blog

prompt-injection LLM-security microsoft +8

✍️ Anthropic Prompt Caching解説: Claude APIのキャッシュアーキテクチャとコスト最適化の技術詳細

本記事は Anthropic Blog: Prompt caching with Claude（2024年8月14日公開、2024年12月17日GA）の解説記事です。ブログ概要（Summary） AnthropicはClaude APIにPrompt Caching機能を導入し、APIリクエスト間で共通するプロンプト部分をサーバー側でキャッシュして再利用する仕組みを提供している。公式ブ...

17/03/2026 blog tech_blog

claude anthropic prompt-caching +4

✍️ Anthropic Advanced Tool Use解説: Tool Search・Programmatic Tool Calling・Tool Use Examplesの技術詳細

本記事は Anthropic Engineering Blog: Introducing advanced tool use on the Claude Developer Platform（2025年11月24日公開）の解説記事です。ブログ概要（Summary） Anthropicは2025年11月にClaude Developer Platformへ3つのAdvanced Tool...

17/03/2026 blog tech_blog

claude anthropic tool-use +4

📄 論文解説: ToolHijacker — LLMエージェントのツール選択に対するプロンプトインジェクション攻撃

論文概要（Abstract）本記事は arXiv:2504.19793 の解説記事です。 ToolHijackerは、LLMエージェントのツール選択パイプラインに対する新たなプロンプトインジェクション攻撃手法である。著者らは、攻撃者がツールライブラリに悪意あるツールドキュメントを注入し、LLMエージェントに正規ツールの代わりに悪意あるツールを選択させる手法を提案している。攻撃をドキュメ...

17/03/2026 blog paper

prompt-injection tool-use LLM-security +7

📄 論文解説: EAGLE-2 - 動的ドラフトツリーによるLLM推論高速化

本記事は EAGLE-2: Faster Inference of Language Models with Dynamic Draft Trees (arXiv:2406.14066) の解説記事です。論文概要（Abstract）本論文は、Speculative Decodingの改良手法EAGLE-2を提案している。先行手法EAGLE-1（1層のAutoregressive He...

16/03/2026 blog paper

EAGLE speculative-decoding LLM-inference +3

📄 論文解説: Fast Inference from Transformers via Speculative Decoding

本記事は Fast Inference from Transformers via Speculative Decoding (arXiv:2211.17192) の解説記事です。論文概要（Abstract）本論文は、LLMの自己回帰推論を高速化するSpeculative Decoding（投機的デコーディング）を提案している。小さなドラフトモデル（draft model）でK個のト...

16/03/2026 blog paper

speculative-decoding LLM-inference latency +2

📄 論文解説: Orca - Continuous Batchingで実現するLLM推論の高スループットサービング

本記事は Orca: A Distributed Serving System for Transformer-Based Generative Models の解説記事です。論文概要（Abstract）本論文は、Transformerベースの生成モデルのサービングにおけるスケジューリング問題に対し、Continuous Batching（別名: iteration-level sc...

16/03/2026 blog paper

Orca continuous-batching LLM-inference +3

📄 論文解説: Efficiently Programming Large Language Models using SGLang

本記事は Efficiently Programming Large Language Models using SGLang (arXiv:2312.07910) の解説記事です。論文概要（Abstract）本論文は、LLMの呼び出しを効率的にプログラミングするためのフロントエンドDSL（SGLang言語）と、バックエンドのKVキャッシュ再利用最適化（RadixAttention）...

16/03/2026 blog paper

SGLang RadixAttention KV-cache +3

📄 論文解説: Efficient Memory Management for Large Language Model Serving with PagedAttention

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (arXiv:2309.06180) の解説記事です。論文概要（Abstract）本論文は、LLM推論サービングにおけるKVキャッシュのメモリ管理問題に対し、OSの仮想メモリ管理からインスパイアされたPagedAt...

16/03/2026 blog paper

vLLM PagedAttention KV-cache +3

1
...
73
74
75
...
138
74 / 138