論文概要(Abstract) 本記事は https://arxiv.org/abs/2310.01801 の解説記事です。 大規模言語モデル(LLM)の推論時に生成されるKey-Value(KV)キャッシュは、長いコンテキストや大きなバッチサイズにおいてGPUメモリの主要なボトルネックとなる。著者らは、Attentionモジュールの内部構造をプロファイリングし、その結果に基づいてKVキャ...
本記事は You Name It, I Run It: An LLM Agent to Execute Tests of Arbitrary Projects (Isaku et al., 2024) の解説記事です。 この記事は Zenn記事: LangSmithで本番エージェント障害を分析しCI/CDテストを自動化する の深掘りです。Zenn記事ではLangSmithを活用したCI/C...
本記事は Judging the Judges: A Systematic Study of Position Bias in Pairwise Evaluation with LLM-as-a-Judge (Shi et al., 2024) の解説記事です。 この記事は Zenn記事: LangSmithで本番エージェント障害を分析しCI/CDテストを自動化する の深掘りです。LLM-...
本記事は arXiv:2410.12784 の解説記事です。 論文概要(Abstract) Tan, Zhuang, Montgomery ら(UC Berkeley / Washington University in St. Louis, 2024)は、LLM-based Judgeの信頼性を客観的に評価するベンチマーク JudgeBench を提案した。既存のベンチマークが人間の主...
論文概要 本記事は https://arxiv.org/abs/2407.11843 の解説記事です。 InferActは、LLMベースのエージェントが実行するアクションを事前に評価し、リスクの高いアクションを人間に確認させることで安全性を確保するフレームワークである。従来のアプローチがアクション実行後のエラー検出に依存していたのに対し、InferActはTheory-of-Mind(心...
論文概要(Abstract) 本論文は、LLM(大規模言語モデル)を評価者として活用する「LLM-as-a-Judge」パラダイムに関する包括的サーベイである。著者らは、評価形式(pointwise/pairwise/binary/multiple-choice)、バイアスの分類(位置バイアス・冗長性バイアス・自己強化バイアスなど)、信頼性向上のための戦略(プロンプト設計・能力強化・出力最...
本記事は MemoryOS: LLM Agent Memory Management Operating System Inspired by OS (Ji et al., 2025) の解説記事です。 論文概要(Abstract) MemoryOSは、オペレーティングシステム(OS)のストレージ階層設計をLLMエージェントのメモリ管理に適用した包括的フレームワークである。インコンテキス...
本記事は Recursively Summarizing Enables Long-Term Dialogue Memory in Large Language Models (2023) の解説記事です。 論文概要(Abstract) 本論文は、LLMの固定長コンテキストウィンドウの制約を超えて長期対話メモリを実現する「再帰的要約チェーン」を提案している。会話を固定ウィンドウで処理し、...
本記事は Mem0: Building Production-Ready AI Agents with Scalable Long-Term Memory (Chhikara et al., 2025) の解説記事です。 論文概要(Abstract) Mem0は、AIエージェント・アシスタント向けのスケーラブルなメモリ層である。純粋なベクトル類似度検索やフルコンテキスト方式とは異なり、意...
本記事は Effective context engineering for AI agents(Anthropic Applied AI team, 2025年9月)の解説記事です。 ブログ概要(Summary) Anthropicの応用AIチームが発表した本ブログポストは、「コンテキストエンジニアリング」という概念を体系化した実践ガイドである。プロンプトエンジニアリング(初期プロンプ...