本記事は E-mem: Multi-agent based Episodic Context Reconstruction for LLM Agent Memory (arXiv 2601.21714) の解説記事です。
論文概要(Abstract)
E-memは、LLMエージェントの長期記憶において従来手法が抱える「破壊的脱文脈化(destructive de-contextualization)」問題に対し、生物学的エングラムに着想を得たエピソード文脈再構成アプローチを提案する。異種階層型マルチエージェントアーキテクチャにより、複数のアシスタントエージェントが非圧縮のエピソード文脈を保持し、中央のマスターエージェントが分散証拠を統合して応答を生成する。ICML 2026に採択された論文である。
この記事は Zenn記事: E-memで社内ヘルプデスクボットの長期記憶を実装しトークンコストを70%削減する の深掘りです。
情報源
- arXiv ID: 2601.21714
- URL: https://arxiv.org/abs/2601.21714
- 著者: Kaixiang Wang, Yidan Lin, Jiong Lou, et al.
- 発表年: 2026(ICML 2026採択)
- 分野: cs.AI, cs.CL
- コード: https://github.com/dog-last/E-mem
背景と動機(Background & Motivation)
LLMエージェントのメモリシステムにおいて、既存手法は会話履歴を事前に定義された構造(ナレッジグラフ、埋め込みベクトル、要約テキスト等)へ変換する前処理パイプラインを採用している。著者らはこのアプローチが「文脈の逐次的依存関係や因果チェーンを破壊し、深い推論に不可欠な整合性を断ち切る」と主張している。
具体的には、Full Contextアプローチ(全履歴をプロンプトに投入)はトークンコストが169,100トークン/クエリに達し、RAGは文脈の断片化を招き、GAM(Graph-Augmented Memory)はトークンコスト12,540でF1スコア45.31%に留まる(論文Table 7より)。E-memはこれらの課題に対し、メモリを圧縮せず分散保持し、必要時に動的に再構成する設計で対応する。
主要な貢献(Key Contributions)
- 貢献1: 異種階層型マルチエージェントアーキテクチャの提案。大規模LLM(マスター)と小規模LLM(アシスタント)の協調により、コスト効率と推論精度を両立する設計
- 貢献2: 3経路の活性化ルーティング(Global Alignment / Semantic Association / Symbolic Trigger)のUnion方式による網羅的なメモリ想起メカニズム
- 貢献3: LoCoMoベンチマークでF1スコア54.17%を達成し、GAM比+8.86ポイント改善かつトークンコスト71%削減を実現
技術的詳細(Technical Details)
メモリユニットの構造
E-memの基本データ構造は複合タプルとして定義される:
\[\mathcal{S}_i = \langle \mathcal{E}_i, s_i \rangle\]ここで、
- $\mathcal{E}_i$: 非圧縮の完全なエピソード文脈(高忠実度の生トークン列)
- $s_i$: グローバルルーティング用の簡潔な意味要約
- $v_i$: セマンティックマッチング用の密ベクトル埋め込み
- $k_i$: シンボリックトリガー用のキーワードインデックス
メモリユニットの作成には、長さ$L$、ストライド$S < L$のスライディングウィンドウを使用する。オーバーラップ$\delta = L - S$により、境界を跨ぐローカルな逐次的依存関係を保持する。論文の実験では、チャンク粒度8Kトークンが最適(F1=50.70%)と報告されている。
3経路マルチパスウェイ・ルーティング
メモリユニットの活性化は3つの直交する経路のUnion方式で決定される:
\[\mathcal{A}^* \leftarrow \mathcal{P}_{\text{glob}} \cup \mathcal{P}_{\text{sem}} \cup \mathcal{P}_{\text{kw}}\]Global Alignment ($\mathcal{P}_{\text{glob}}$): クエリと各メモリユニットの意味要約$s_i$間の密ベクトル類似度と疎な語彙アライメントを計算する。ユーザー意図の広範な意味的関連性を捕捉する高域通過フィルタとして機能する。
Semantic Association ($\mathcal{P}_{\text{sem}}$): 生チャンク埋め込み$\mathcal{E}_i$に対する高次元ベクトル類似度を計算する。要約化で失われた抽象的な意図との共鳴を検出するフェイルセーフ機構として位置づけられる。
Symbolic Trigger ($\mathcal{P}_{\text{kw}}$): BM25ベースの疎検索により、クエリと元テキスト間の正確な語彙的重複を検出する。固有のIDや人名など、ファクトアンカーの高精度リコールを保証する。
アルゴリズム(Algorithm 1)
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
def e_mem_pipeline(query: str, memory_units: list) -> str:
"""E-memの4フェーズ推論パイプライン"""
# Phase 1: Memory Building (事前処理)
# 各チャンクc_iに対し:
# Encapsulate(c_i) -> E_i, Summarize(E_i) -> s_i
# Index(E_i) -> v_i, k_i
# Phase 2: Associative Activation (連想活性化)
p_glob = global_align(query, summaries)
p_sem = semantic_sim(query, embeddings)
p_kw = symbolic_match(query, keywords)
activated = p_glob | p_sem | p_kw # Union
# Phase 3: Episodic Reconstruction (エピソード再構成)
evidences = []
for agent_k in activated:
context = reconstruct_context(agent_k.episodes)
e_k = assistant_local_reason(query, context)
evidences.append(e_k)
# Phase 4: Synergistic Response (統合応答)
response = master_aggregate(query, evidences)
return response
マスター・アシスタント階層
著者らは「生のメモリ保持の負担から切り離された中央オーケストレータ」としてマスターエージェントを位置づけている。
| 役割 | モデル | パラメータ数 | 担当 |
|---|---|---|---|
| マスター | GPT-4o-mini / Qwen2.5-14B | 14B | グローバル計画・証拠統合 |
| アシスタント | Qwen3-4B | 0.6B〜14B | ローカル推論・文脈保持 |
コスト比はSmall:Large = 1:10であり、アシスタントが大部分のトークン(2,271トークン)を処理し、マスターはわずか135トークンで統合応答を生成する(論文Table 7より)。
実装のポイント(Implementation)
チャンク粒度の選択: 論文の実験では8Kトークンが最適。これより小さいと文脈の断片化が発生し、大きいとアシスタントの推論精度が低下する。
活性化密度の制御: k=8チャンクで「情報飽和」が発生し、それ以上のユニットを活性化してもF1は改善しない。実装時にはmax_activated_units=8〜20を推奨する。
アシスタントモデルの選択: Qwen3-4Bが基本だが、0.6B〜14Bの範囲で精度とコストのトレードオフを調整可能。論文のアブレーション実験ではQwen3-8Bがハルシネーション抑制で最高F1 95.74%を記録している。
スライディングウィンドウの設定: オーバーラップδの適切な設定により、境界を跨ぐ因果チェーンの喪失を防止する。
Production Deployment Guide
AWS実装パターン(コスト最適化重視)
E-memのマルチエージェント構成をAWSで実現する場合の構成例:
| 規模 | 月間リクエスト | 推奨構成 | 月額コスト | 主要サービス |
|---|---|---|---|---|
| Small | ~3,000 (100/日) | Serverless | $80-200 | Lambda + Bedrock + DynamoDB |
| Medium | ~30,000 (1,000/日) | Hybrid | $400-1,000 | Lambda + ECS Fargate + ElastiCache |
| Large | 300,000+ (10,000/日) | Container | $2,500-6,000 | EKS + Karpenter + EC2 Spot |
Small構成の詳細 (月額$80-200):
- Lambda (アシスタント推論): 2GB RAM, 60秒タイムアウト、並列実行8件 ($30/月)
- Bedrock (マスター推論): Claude 3.5 Haiku, Prompt Caching有効 ($100/月)
- DynamoDB: メモリユニット保存、On-Demand ($20/月)
- OpenSearch Serverless: ベクトル検索用 ($25/月)
- CloudWatch: 基本監視 ($5/月)
コスト削減テクニック:
- アシスタント推論をBedrock Batch APIで実行(50%割引)
- メモリユニットのembeddingをS3にキャッシュ(再計算回避)
- Prompt Cachingでマスターのシステムプロンプトを固定(30-90%削減)
- Spot Instances使用で最大90%削減(EKS Large構成)
コスト試算の注意事項:
- 上記は2026年5月時点のAWS ap-northeast-1(東京)リージョン料金に基づく概算値です
- 実際のコストはトラフィックパターン、アシスタント並列数、メモリユニット数により変動します
- 最新料金は AWS料金計算ツール で確認してください
Terraformインフラコード
Small構成 (Serverless): Lambda + Bedrock + DynamoDB + OpenSearch
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60
61
62
63
64
65
66
67
68
69
70
71
72
73
74
75
module "vpc" {
source = "terraform-aws-modules/vpc/aws"
version = "~> 5.0"
name = "e-mem-vpc"
cidr = "10.0.0.0/16"
azs = ["ap-northeast-1a", "ap-northeast-1c"]
private_subnets = ["10.0.1.0/24", "10.0.2.0/24"]
enable_nat_gateway = false
enable_dns_hostnames = true
}
resource "aws_iam_role" "e_mem_lambda" {
name = "e-mem-lambda-role"
assume_role_policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Action = "sts:AssumeRole"
Effect = "Allow"
Principal = { Service = "lambda.amazonaws.com" }
}]
})
}
resource "aws_iam_role_policy" "bedrock_invoke" {
role = aws_iam_role.e_mem_lambda.id
policy = jsonencode({
Version = "2012-10-17"
Statement = [{
Effect = "Allow"
Action = ["bedrock:InvokeModel", "bedrock:InvokeModelWithResponseStream"]
Resource = "arn:aws:bedrock:ap-northeast-1::foundation-model/anthropic.claude-3-5-haiku*"
}]
})
}
resource "aws_lambda_function" "assistant_agent" {
filename = "assistant_agent.zip"
function_name = "e-mem-assistant"
role = aws_iam_role.e_mem_lambda.arn
handler = "handler.main"
runtime = "python3.12"
timeout = 60
memory_size = 2048
environment {
variables = {
BEDROCK_MODEL_ID = "anthropic.claude-3-5-haiku-20241022-v1:0"
DYNAMODB_TABLE = aws_dynamodb_table.memory_units.name
MAX_ACTIVATED = "8"
}
}
}
resource "aws_dynamodb_table" "memory_units" {
name = "e-mem-memory-units"
billing_mode = "PAY_PER_REQUEST"
hash_key = "unit_id"
range_key = "timestamp"
attribute {
name = "unit_id"
type = "S"
}
attribute {
name = "timestamp"
type = "N"
}
ttl {
attribute_name = "expire_at"
enabled = true
}
}
運用・監視設定
CloudWatch Logs Insights クエリ:
1
2
3
4
5
6
7
8
9
10
-- アシスタントエージェント推論レイテンシ監視
fields @timestamp, assistant_id, duration_ms, activated_units
| stats avg(duration_ms) as avg_latency, pct(duration_ms, 95) as p95
by bin(5m)
| filter avg_latency > 5000
-- トークンコスト異常検知
fields @timestamp, master_tokens, assistant_tokens
| stats sum(master_tokens * 10 + assistant_tokens) as total_cost by bin(1h)
| filter total_cost > 50000
コスト最適化チェックリスト:
- アシスタントモデルをBatch API経由で呼び出し(50%削減)
- メモリユニットembeddingのキャッシュ戦略(S3 + TTL)
- max_activated_units=8で情報飽和以上の不要な推論を防止
- マスターのPrompt Caching有効化(システムプロンプト固定)
- DynamoDB TTLで90日超過のメモリユニットを自動削除
- Lambda Provisioned Concurrencyを避けOn-Demand利用(低トラフィック時)
- CloudWatch アラーム: トークン使用量スパイク検知
実験結果(Results)
LoCoMoベンチマーク(論文Table 1より)
GPT-4o-miniバックボーンでの結果:
| 手法 | Overall F1 | Single-Hop | Multi-Hop | Temporal | Open Domain |
|---|---|---|---|---|---|
| Full Context | 37.31 | — | — | — | — |
| RAG | 44.73 | — | — | — | — |
| GAM | 45.31 | 47.74 | 34.84 | 53.91 | 26.03 |
| E-mem | 54.17 | 59.23 | 42.64 | 59.82 | 24.89 |
Qwen2.5-14Bバックボーンでは、E-memのOverall F1は57.04に達し、Multi-Hopで+10.21ポイントの改善が確認されている。
トークンコスト比較(論文Table 7より)
| 手法 | F1 | SLMトークン(T_S) | LLMトークン(T_L) | 総合コスト |
|---|---|---|---|---|
| Long-Context | 37.31 | — | 16,910 | 169,100 |
| RAG | 44.73 | — | 643 | 6,430 |
| GAM | 45.31 | — | 1,254 | 12,540 |
| E-mem | 54.17 | 2,271 | 135 | 3,621 |
E-memはFull Contextの43分の1、GAMの71%削減のコストで、最高精度を達成している。
アブレーション実験(論文Figure 3bより)
HotpotQA-1600データセットでの各経路除去実験:
| 構成 | F1 | 低下幅 |
|---|---|---|
| Full Model | 55.76 | — |
| w/o Global Alignment | 45.30 | -10.46 |
| w/o Semantic Association | 47.90 | -7.86 |
| w/o Symbolic Trigger | 52.42 | -3.34 |
Global Alignmentの除去が最も大きな影響を与え、3経路が相互補完的に機能していることが確認されている。
レイテンシ特性
E-memの推論レイテンシは11.25秒であり、RAG(2.60秒)より遅いがGAM(14.71秒)より高速である。リアルタイム性が求められるアプリケーションでは、活性化チャンク数の制限やアシスタント並列実行による最適化が必要となる。
実運用への応用(Practical Applications)
E-memの3段階パイプラインは以下のユースケースに適している:
社内ヘルプデスク: Multi-Hop質問(過去のチケット参照)とTemporal質問(時系列推論)で大幅な精度向上が見込める。月間問い合わせ1,000件以上の組織で導入効果が高い。
カスタマーサポート: 顧客の過去の問い合わせ履歴を非圧縮で保持し、「前回の件ですが」パターンに正確に対応できる。
教育支援システム: 学習者の過去の理解度や質問履歴をエピソードとして保持し、個別最適化された説明を提供できる。
制約事項: Open Domain質問ではGAMにわずかに劣る(24.89% vs 26.03%)ため、一般的なFAQ応答にはRAG単体のほうが適している場合がある。また、Lifelong learning実験では5セッション連続で1.52ポイントのF1低下が報告されており、長期運用時のメモリ品質管理が課題となる。
関連研究(Related Work)
- GAM (Graph-Augmented Memory): ナレッジグラフベースのメモリ構造化。E-mem比でF1 -8.86ポイント、トークンコスト3.5倍。構造化の過程で因果チェーンが失われる問題がある
- Mem0: マルチシグナル検索による効率的なメモリ管理。LoCoMo 91.6(独自評価設定、E-memとは条件が異なる)。パーソナライゼーション用途に強み
- MemGPT (Letta): OS風の仮想コンテキスト管理。メモリの階層化アプローチは異なるが、コンテキストウィンドウ制約への対処という目標は共通
まとめと今後の展望
E-memは「メモリ前処理」から「エピソード文脈再構成」へのパラダイムシフトを提案し、LoCoMoベンチマークでF1 54.17%(GAM比+8.86%)を達成しつつトークンコストを71%削減した。マルチエージェント階層による大小モデルの使い分けが、精度とコストの両立を可能にしている。今後の課題として、レイテンシの改善(現状11.25秒)とOpen Domain質問での精度向上が挙げられている。
参考文献
- arXiv: https://arxiv.org/abs/2601.21714
- Code: https://github.com/dog-last/E-mem
- Related Zenn article: https://zenn.dev/0h_n0/articles/32423a4d09ce70