Home
0h-n0 TechBLog
キャンセル

📄 論文解説: Towards Efficient Multi-LLM Inference — ルーティング vs 階層的推論の体系的比較

本記事は arXiv:2506.06579 の解説記事です。 論文概要(Abstract) 本論文は、LLM推論における計算コスト・エネルギー消費・レイテンシの課題に対し、マルチLLMインテリジェントモデル選択の2大アプローチ――ルーティングと階層的推論(Hierarchical Inference / カスケーディング)――を体系的に特徴化・比較する。ルーティングはクエリ特性に基づいて...

📄 INFOCOM 2026論文解説: セマンティックキャッシュによる低コストLLMサービング — オフライン学習からオンライン適応へ

本記事は arXiv:2508.07675 の解説記事です。 論文概要(Abstract) LLM推論コストの削減手段としてセマンティックキャッシュが注目されている。本論文は、意味的に類似したクエリに対してキャッシュ済み応答を再利用する際の「ミスマッチコスト」を考慮したキャッシュ退避問題を、原理的な最適化問題として定式化した。著者らは、クエリ到着確率やサービングコストが既知のOracle...

✍️ Portkeyテックブログ解説: Gateway 2.0 — 1日1兆トークンを処理するAIゲートウェイのフルOSS化

本記事は The Gateway Grew Up — Portkey Blog の解説記事です。 ブログ概要(Summary) Portkey AIが2026年3月に公開した「The Gateway Grew Up」は、同社のAIゲートウェイ製品であるPortkey Gatewayのメジャーアップデート(Gateway 2.0)を発表するブログ記事である。Portkeyの公式ブログによる...

📄 論文解説: Dynamic Model Routing and Cascading for Efficient LLM Inference — LLMルーティング手法の体系的サーベイ

本記事は arXiv:2603.04445 の解説記事です。 論文概要(Abstract) LLMの急速な発展に伴い、性能・コスト・得意分野が異なる多数のモデルが利用可能になっている。静的なモデルデプロイメントではクエリの複雑さに応じた柔軟な対応ができないため、推論時にクエリ特性に基づいてモデルを動的に選択するルーティングシステムへの需要が高まっている。本サーベイは、独立に訓練された複数...

✍️ Mem0ブログ解説: State of AI Agent Memory 2026 - エージェントメモリの産業動向と技術分析

本記事は State of AI Agent Memory 2026 - Mem0 Blog の解説記事です。 ブログ概要(Summary) Mem0が2026年に公開した「State of AI Agent Memory 2026」は、AIエージェントメモリ分野の産業動向を網羅する技術レポートである。2026年4月に発表された新しいトークン効率メモリアルゴリズムのベンチマーク結果(Lo...

📄 NeurIPS 2025論文解説: A-MEM - Zettelkasten方式によるLLMエージェントの動的メモリ組織化

本記事は A-MEM: Agentic Memory for LLM Agents (arXiv 2502.12110, NeurIPS 2025) の解説記事です。 論文概要(Abstract) A-MEMは、個人の知識管理手法であるZettelkasten(ツェッテルカステン)に着想を得て、LLMエージェントのメモリを動的にインデックシング・リンキングする手法を提案する。メモリ追加時...

📄 ACL 2024論文解説: Evaluating Very Long-Term Conversational Memory of LLM Agents

本記事は Evaluating Very Long-Term Conversational Memory of LLM Agents (ACL 2024) の解説記事です。 論文概要(Abstract) LoCoMo(Long-term Conversational Memory)は、LLMエージェントの超長期対話記憶能力を評価するためのベンチマークデータセットである。平均600ターン・...