論文概要(Abstract) 本記事は Towards Tool Use Alignment of Large Language Models(EMNLP 2024)の解説記事です。 LLMが外部ツールを呼び出す際、正しくツールを選択・実行するだけでなく、有害な指示や不正なツール応答を拒否し、不要なツール呼び出しを避けて自律的に応答する能力が求められる。本論文は、ツール利用シナリオにおけ...
Anthropicエンジニアリングブログ解説: AIエージェントのための効果的なツール設計 ブログ概要 本記事は https://www.anthropic.com/engineering/writing-tools-for-agents の解説記事です。 Anthropicのエンジニアリングチーム(Ken Aizawa他、Barry Zhang, Zachary Witten, Da...
論文概要(Abstract) 本記事は Gorilla: Large Language Model Connected with Massive APIs の解説記事です。 Gorillaは、UC Berkeleyの研究チームが提案した、LLMに大規模APIの正確な呼び出し能力を付与するためのシステムである。著者らは、APIドキュメントを検索して取得した情報をプロンプトに含めた状態でファ...
本記事は ToolLLM: Facilitating Large Language Models to Master 16000+ Real-world APIs (arXiv:2307.16789) の解説記事です。 論文概要(Abstract) ToolLLMは、Tsinghua大学・Yale大学・RapidAPIの共同研究チームが2023年に発表した、LLMに大規模な実世界APIの...
本記事は SWE-agent: Agent-Computer Interfaces Enable Automated Software Engineering (arXiv:2405.15017) の解説記事です。 論文概要(Abstract) SWE-agentは、LLMエージェントがソフトウェアエンジニアリングタスクを遂行する際のAgent-Computer Interfac...
本記事は Mastering LLM Techniques: Inference Optimization (NVIDIA Developer Blog) の解説記事です。 ブログ概要(Summary) NVIDIAのShashank VermaとNeal Vaidyaが2023年11月に公開した技術ブログで、LLM推論の高速化・効率化技術を体系的にまとめている。Prefill(入力処理...
本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving (arXiv:2401.12191) の解説記事です。 論文概要(Abstract) CacheGenは、LLM推論における長文コンテキストのKVキャッシュを圧縮・シリアライズし、ネットワーク越しに転送・再...
本記事は Mixture-of-Agents Enhances Large Language Model Capabilities (arXiv:2406.19512) の解説記事です。 論文概要(Abstract) Mixture-of-Agents(MoA)は、Together AIのJunlin Wang、Jue Wang、Ben Athiwaratkun らが2024年に発表した...
本記事は Cost-Efficient Large Language Model Serving for Multi-turn Conversations with CachedAttention (arXiv:2404.14619) の解説記事です。 論文概要(Abstract) CachedAttentionは、マルチターン会話におけるLLM推論コストを削減するため、過去ター...
本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention (arXiv:2309.06180) の解説記事です。 論文概要(Abstract) PagedAttentionは、LLM推論におけるKVキャッシュのメモリ管理にOSの仮想メモリ(ページング)方式を適用した手...