Home
0h-n0 TechBLog
キャンセル

📄 論文解説: FActScore — LLM生成テキストの事実精度をアトミックファクトで定量評価する

本記事は FActScore: Fine-grained Atomic Evaluation of Factual Precision in Long Form Text Generation の解説記事です。 論文概要(Abstract) LLMが生成する長文テキスト(人物の伝記等)には事実と非事実が混在しており、テキスト全体を「正しい/誤り」と二値判定するのは適切ではない。著者らはF...

📄 論文解説: CG-RAG — 引用グラフ構造を活用した検索拡張生成

本記事は CG-RAG: Research Question Answering by Citation Graph Retrieval-Augmented LLMs の解説記事です。 論文概要(Abstract) 既存のRAGベースの研究質問応答は、論文を独立したテキスト断片として扱い、論文間の引用関係を無視している。著者らはCG-RAG(Citation Graph RAG)を提案し...

📄 論文解説: GraphRAG — Microsoftが提案するグラフベースRAGでグローバルクエリに応答する

本記事は From Local to Global: A Graph RAG Approach to Query-Focused Summarization の解説記事です。 論文概要(Abstract) RAGは外部知識を用いてLLMに質問回答させるが、「このデータセットの主要テーマは何か」といった文書コレクション全体の理解を要するグローバルクエリには対応できない。著者らはGraphR...

📄 論文解説: Medical Graph RAG — グラフ構造で医療LLMの安全性を担保するRAGフレームワーク

本記事は Medical Graph RAG: Towards Safe Medical Large Language Model via Graph Retrieval-Augmented Generation の解説記事です。 論文概要(Abstract) 大規模言語モデル(LLM)は医療分野で有望だが、事実ハルシネーション・データプライバシー・倫理的偏りという3つの課題が実臨床への...

📄 論文解説: Category-Aware Semantic Caching — 異種LLMワークロードのためのカテゴリ別キャッシュ最適化

論文概要 本記事は https://arxiv.org/abs/2510.26835 の解説記事です。 LLMサービングにおけるセマンティックキャッシュは、類似クエリの再計算を回避しレイテンシとコストを削減する手法として広く採用されているが、従来の均一キャッシュポリシー(固定閾値・固定TTL)は、異種ワークロードに対して深刻な非効率を生む。著者らは、クエリカテゴリごとに類似度閾値・TTL...

📄 論文解説: Krites — 非同期検証によるセマンティックキャッシュの精度と再利用率の両立

本記事は https://arxiv.org/abs/2602.13165 の解説記事です。 論文概要(Abstract) セマンティックキャッシュはLLM推論のコストとレイテンシを削減する有力な手法だが、固定閾値による類似度判定では「保守的すぎてヒット率が低い」か「積極的すぎて誤った応答を返す」というトレードオフが避けられない。著者らは、2層キャッシュアーキテクチャ(Static/Dy...

📄 NeurIPS 2025論文解説: KVCOMM — マルチエージェントLLM推論のためのKVキャッシュ共有フレームワーク

本記事は KVCOMM: Online Cross-context KV-cache Communication for Efficient LLM-based Multi-agent Systems の解説記事です。 論文概要(Abstract) KVCOMMは、マルチエージェントLLMシステムにおいて、エージェント間で重複するコンテキストのKVキャッシュを効率的に共有・再利用するフレ...

📄 論文解説: ServerlessLLM — ローカリティ最適化によるLLMモデルロードの高速化

本記事は ServerlessLLM: Low-Latency Serverless Inference for Large Language Models の解説記事です。 論文概要(Abstract) LLMサービングにおいて、モデルの切り替え(ロード/アンロード)はコールドスタート問題を引き起こす。LLaMA-2-70Bのチェックポイント読み込みには従来60秒以上を要し、これがスケ...

📄 論文解説: Continuum — KVキャッシュTTLによるマルチターンLLMエージェントの効率的スケジューリング

本記事は Continuum: Efficient and Robust Multi-Turn LLM Agent Scheduling with KV Cache Time-to-Live の解説記事です。 論文概要(Abstract) LLMを用いたエージェントシステムでは、モデル推論とツール実行(Web検索、コード実行、API呼び出しなど)が交互に繰り返される。従来のLLM推論サー...