Home
0h-n0 TechBLog
キャンセル

📄 ICLR 2024論文解説: FastGen — プロファイリング駆動の適応的KVキャッシュ圧縮

論文概要(Abstract) 本記事は https://arxiv.org/abs/2310.01801 の解説記事です。 大規模言語モデル(LLM)の推論時に生成されるKey-Value(KV)キャッシュは、長いコンテキストや大きなバッチサイズにおいてGPUメモリの主要なボトルネックとなる。著者らは、Attentionモジュールの内部構造をプロファイリングし、その結果に基づいてKVキャ...

📄 ICLR 2025論文解説: JudgeBench — LLM評価者自体の信頼性を問うベンチマーク

本記事は arXiv:2410.12784 の解説記事です。 論文概要(Abstract) Tan, Zhuang, Montgomery ら(UC Berkeley / Washington University in St. Louis, 2024)は、LLM-based Judgeの信頼性を客観的に評価するベンチマーク JudgeBench を提案した。既存のベンチマークが人間の主...

📄 論文解説: InferAct — LLMエージェントの安全なアクション推論と事前評価

論文概要 本記事は https://arxiv.org/abs/2407.11843 の解説記事です。 InferActは、LLMベースのエージェントが実行するアクションを事前に評価し、リスクの高いアクションを人間に確認させることで安全性を確保するフレームワークである。従来のアプローチがアクション実行後のエラー検出に依存していたのに対し、InferActはTheory-of-Mind(心...

📄 論文解説: A Survey on LLM-as-a-Judge — LLM評価者の体系的サーベイ

論文概要(Abstract) 本論文は、LLM(大規模言語モデル)を評価者として活用する「LLM-as-a-Judge」パラダイムに関する包括的サーベイである。著者らは、評価形式(pointwise/pairwise/binary/multiple-choice)、バイアスの分類(位置バイアス・冗長性バイアス・自己強化バイアスなど)、信頼性向上のための戦略(プロンプト設計・能力強化・出力最...

📄 論文解説: MemoryOS — OS設計に着想した3層階層メモリ管理システム

本記事は MemoryOS: LLM Agent Memory Management Operating System Inspired by OS (Ji et al., 2025) の解説記事です。 論文概要(Abstract) MemoryOSは、オペレーティングシステム(OS)のストレージ階層設計をLLMエージェントのメモリ管理に適用した包括的フレームワークである。インコンテキス...

📄 論文解説: 再帰的要約によるLLMの長期対話メモリ実現

本記事は Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models (2023) の解説記事です。 論文概要(Abstract) 本論文は、LLMの固定長コンテキストウィンドウの制約を超えて長期対話メモリを実現する「再帰的要約チェーン」を提案している。会話を固定ウィンドウで処理し、...

📄 論文解説: Mem0 — プロダクション対応のスケーラブルLLM長期メモリ層

本記事は Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory (Chhikara et al., 2025) の解説記事です。 論文概要(Abstract) Mem0は、AIエージェント・アシスタント向けのスケーラブルなメモリ層である。純粋なベクトル類似度検索やフルコンテキスト方式とは異なり、意...

✍️ Anthropicブログ解説: AIエージェントのための効果的なコンテキストエンジニアリング

本記事は Effective context engineering for AI agents(Anthropic Applied AI team, 2025年9月)の解説記事です。 ブログ概要(Summary) Anthropicの応用AIチームが発表した本ブログポストは、「コンテキストエンジニアリング」という概念を体系化した実践ガイドである。プロンプトエンジニアリング(初期プロンプ...