Home
0h-n0 TechBLog
キャンセル

📄 EMNLP 2024論文解説: LLMのツール利用アラインメント — H2A原則による安全なエージェント設計

論文概要(Abstract) 本記事は Towards Tool Use Alignment of Large Language Models(EMNLP 2024)の解説記事です。 LLMが外部ツールを呼び出す際、正しくツールを選択・実行するだけでなく、有害な指示や不正なツール応答を拒否し、不要なツール呼び出しを避けて自律的に応答する能力が求められる。本論文は、ツール利用シナリオにおけ...

📄 論文解説: Gorilla — 大規模APIとLLMを接続するRetrieval-Aware Training

論文概要(Abstract) 本記事は Gorilla: Large Language Model Connected with Massive APIs の解説記事です。 Gorillaは、UC Berkeleyの研究チームが提案した、LLMに大規模APIの正確な呼び出し能力を付与するためのシステムである。著者らは、APIドキュメントを検索して取得した情報をプロンプトに含めた状態でファ...

✍️ NVIDIA技術ブログ解説: LLM推論最適化の全体像 — KVキャッシュからSpeculative Decodingまで

本記事は Mastering LLM Techniques: Inference Optimization (NVIDIA Developer Blog) の解説記事です。 ブログ概要(Summary) NVIDIAのShashank VermaとNeal Vaidyaが2023年11月に公開した技術ブログで、LLM推論の高速化・効率化技術を体系的にまとめている。Prefill(入力処理...

📄 論文解説: CacheGen — KVキャッシュ圧縮とストリーミングで長文コンテキストのLLM推論を高速化

本記事は CacheGen: KV Cache Compression and Streaming for Fast Large Language Model Serving (arXiv:2401.12191) の解説記事です。 論文概要(Abstract) CacheGenは、LLM推論における長文コンテキストのKVキャッシュを圧縮・シリアライズし、ネットワーク越しに転送・再...