Home
0h-n0 TechBLog
キャンセル

📄 論文解説: LLUMNIX — リクエストライブマイグレーションによるLLM推論の動的負荷分散

本記事は LLUMNIX: Dynamic Scheduling for Large Language Model Serving (arXiv:2401.11351) の解説記事です。 論文概要(Abstract) LLUMNIXは、LLM推論サービングクラスタにおいて実行中のリクエストをKVキャッシュごとGPUインスタンス間でライブマイグレーションする機構を提案した論文である。従来の...

📄 カンファレンス論文解説: BFCL — Berkeley Function Calling Leaderboardによるツール呼び出し能力の標準ベンチマーク

本記事は ICML 2025 に採択された論文の解説記事です。 論文概要(Abstract) Patil, Mao, Yan, Ji, Suresh, Stoica, Gonzalez (2025) は、LLMのFunction Calling(ツール呼び出し)能力を体系的に評価するベンチマーク BFCL(Berkeley Function Calling Leaderboard) を提...

✍️ Anthropic公式解説: Claude Prompt Cachingの技術仕様と最適化戦略

本記事は Anthropic公式ドキュメント: Prompt caching および Anthropic公式ブログ: Prompt caching with Claude の解説記事です。 ブログ概要(Summary) Anthropicが提供するPrompt Cachingは、Claude APIのリクエスト間で共通するプロンプトプレフィックスのKV(Key-Value)テンソルをサー...

📄 論文解説: LLMによるノーコード開発の適性要因 — エンドユーザーIoTアプリケーション開発への適用

論文概要(Abstract) 本論文は、ノーコード開発プラットフォーム(NCDP: No-Code Development Platform)にLLMを統合する際の適性要因を実証的に分析した研究である。著者ら(Minghe Wang et al.)は、4つの要因——モデル選択、プロンプト言語、学習データの背景知識、エラー情報を活用したFew-shot設計——がノーコード開発の成功率に与える...