Home
0h-n0 TechBLog
キャンセル

📄 論文解説: ToolLLM — 16,000+ APIをマスターするLLMの学習フレームワーク

本記事は arXiv:2307.16789 の解説記事です。 論文概要(Abstract) Qin, Liang, Ye ら (2023) は、LLMに大量のReal-world APIを使いこなさせるための学習フレームワーク ToolLLM を提案している。RapidAPIプラットフォームから16,000以上のRESTful APIを収集し、49,000件の命令-API呼び出しペアから...

📄 OSDI 2024論文解説: Sarathi-Serve — Chunked-Prefillsで実現するLLM推論のスループット・レイテンシ最適化

本記事は Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve (arXiv:2403.02310, OSDI 2024) の解説記事です。 論文概要(Abstract) Sarathi-Serveは、LLM推論サービングにおけるスループットとレイテンシのトレードオフを解消するスケジューラである。著者...

📄 COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQLフレームワーク

本記事は COLING 2025 “MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL” の解説記事です。 論文概要(Abstract) Text-to-SQLタスクにおいて、大規模データベーススキーマ(数十〜数百テーブル)への対応と複雑なクエリの正確なSQL生成は依然として困難な課題である。MAC-SQL(Mul...

✍️ OpenAI公式解説: Structured Outputs in the API — strict modeによる100%スキーマ準拠の実現

本記事は OpenAI: Introducing Structured Outputs in the API の解説記事です。 ブログ概要(Summary) OpenAIは2024年8月6日、APIにStructured Outputs機能を導入した。strict: true を設定することで、モデルの出力が開発者指定のJSON Schemaに100%準拠することが保証される。この機能は...

✍️ NVIDIA解説: TensorRT-LLMのKVキャッシュ再利用最適化 — 優先度ベースEvictionとイベントAPI

本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。 ブログ概要(Summary) NVIDIAは2025年1月、TensorRT-LLMに2つの新機能を導入した。優先度ベースKVキャッシュEvictionは、トークン範囲ごとに優先度と保持期間を設定し、システムプロンプトなどの頻...