📄 論文解説: ToolLLM — 16,000+ APIをマスターするLLMの学習フレームワーク

本記事は arXiv:2307.16789 の解説記事です。論文概要（Abstract） Qin, Liang, Ye ら (2023) は、LLMに大量のReal-world APIを使いこなさせるための学習フレームワーク ToolLLM を提案している。RapidAPIプラットフォームから16,000以上のRESTful APIを収集し、49,000件の命令-API呼び出しペアから...

23/02/2026 blog paper

tool-use function-calling api +5

📄 ICLR 2024論文解説: MiniLLM — 逆KLダイバージェンスによるLLMオンポリシー蒸留

論文概要（Abstract）本記事は Zenn記事: Bedrock Intelligent Prompt Routingで社内RAGコスト最大60%削減の深掘りです。本論文「MiniLLM: Knowledge Distillation of Large Language Models」（Gu, Dong, Wei, Huang; ICLR 2024）は、大規模言語モデル（教師モ...

23/02/2026 blog paper

knowledge-distillation LLM cost-optimization +4

📄 SOSP 2023論文解説: vLLM — PagedAttentionによるKVキャッシュメモリ管理の革新

本記事は Efficient Memory Management for Large Language Model Serving with PagedAttention の解説記事です。注記: 本論文はarXiv ID 2309.06180として公開されているが、正式にはSOSP 2023（Symposium on Operating Systems Principles）で採択された...

23/02/2026 blog paper

vllm pagedattention kv-cache +3

📄 OSDI 2024論文解説: Sarathi-Serve — Chunked-Prefillsで実現するLLM推論のスループット・レイテンシ最適化

本記事は Taming Throughput-Latency Tradeoff in LLM Inference with Sarathi-Serve (arXiv:2403.02310, OSDI 2024) の解説記事です。論文概要（Abstract） Sarathi-Serveは、LLM推論サービングにおけるスループットとレイテンシのトレードオフを解消するスケジューラである。著者...

23/02/2026 blog paper

LLM-inference scheduling chunked-prefill +3

📄 COLING 2025論文解説: MAC-SQL — マルチエージェント協調によるText-to-SQLフレームワーク

本記事は COLING 2025 “MAC-SQL: A Multi-Agent Collaborative Framework for Text-to-SQL” の解説記事です。論文概要（Abstract） Text-to-SQLタスクにおいて、大規模データベーススキーマ（数十〜数百テーブル）への対応と複雑なクエリの正確なSQL生成は依然として困難な課題である。MAC-SQL（Mul...

23/02/2026 blog paper

Text-to-SQL multi-agent LLM +4

✍️ Voyage AI解説: Voyage 4 — MoEアーキテクチャと共有埋め込み空間で非対称検索を実現

本記事は Voyage AI Blog: The Voyage 4 model family: shared embedding space with MoE architecture の解説記事です。ブログ概要（Summary） Voyage AI社は2026年1月、Embeddingモデルとして業界初のMixture of Experts（MoE）アーキテクチャを採用したVoyag...

23/02/2026 blog tech_blog

embedding Voyage MoE +3

✍️ OpenAI公式解説: Structured Outputs in the API — strict modeによる100%スキーマ準拠の実現

本記事は OpenAI: Introducing Structured Outputs in the API の解説記事です。ブログ概要（Summary） OpenAIは2024年8月6日、APIにStructured Outputs機能を導入した。strict: true を設定することで、モデルの出力が開発者指定のJSON Schemaに100%準拠することが保証される。この機能は...

23/02/2026 blog tech_blog

openai structured-outputs function-calling +5

✍️ NVIDIA解説: Nemotron RAG×SQL Server 2025 — エンタープライズデータ上のスケーラブルAI構築

本記事は NVIDIA Technical Blog: Building Scalable AI on Enterprise Data with NVIDIA Nemotron RAG and Microsoft SQL Server 2025 の解説記事です。ブログ概要（Summary） NVIDIAはMicrosoft Ignite 2025で、SQL Server 2025とNV...

23/02/2026 blog tech_blog

nvidia rag sql-server +4

✍️ NVIDIA解説: TensorRT-LLMのKVキャッシュ再利用最適化 — 優先度ベースEvictionとイベントAPI

本記事は Introducing New KV Cache Reuse Optimizations in NVIDIA TensorRT-LLM の解説記事です。ブログ概要（Summary） NVIDIAは2025年1月、TensorRT-LLMに2つの新機能を導入した。優先度ベースKVキャッシュEvictionは、トークン範囲ごとに優先度と保持期間を設定し、システムプロンプトなどの頻...

23/02/2026 blog tech_blog

nvidia tensorrt-llm kv-cache +3

✍️ ブログ解説: NVIDIA NeMo Retriever NIMsでAgentic RAGパイプラインを構築する

本記事は NVIDIA Developer Blog: “Build an Agentic RAG Pipeline with Llama 3.1 and NVIDIA NeMo Retriever NIMs” の解説記事です。この記事は Zenn記事: LangGraph×Claude Sonnet 4.6でSQL統合Agentic RAGを実装するの深掘りです。ブログ概要 N...

23/02/2026 blog techblog

rag nvidia langgraph +2

1
...
76
77
78
...
112
77 / 112