AI Agent 记忆系统架构：2026年全景解读

一、为什么需要给AI装记忆？

你有没有遇到过这种情况——和一个 AI 助手聊了半小时，它突然问你「你的名字是什么？」明明十分钟前刚说过。

这不是 AI 笨，是上下文窗口的物理限制。

上下文窗口不是什么「记忆」

大语言模型的工作方式是：每次对话，把所有内容塞进一个固定大小的上下文窗口里。

GPT-3（2020）：2K tokens

GPT-4（2023）：32K tokens

Claude 2（2023）：100K tokens

Gemini 1.5 Pro（2024）：1M tokens

🤔

类比一下：你的办公桌（上下文窗口）可以放很多文件，但下班后桌子被清空。记忆是你的书架——下班了书还在上面。

为什么不能全靠扩大窗口？

三个原因：

计算成本爆炸。Transformer 自注意力是 O(N²)——窗口每扩大一倍，算力翻四倍。

「Lost in the Middle」。模型倾向记住开头和结尾，中间丢失。

什么是「Lost in the Middle」？

LLM 在处理超长文本时，对开头和结尾的内容记忆最好，中间部分容易被「淹没」。这是因为自注意力机制中，中间的 tokens 同时受到前后信息的干扰，信号最弱。

举例：读一本 300 页的书，你最容易记住前 10 页和后 10 页，中间 280 页的内容可能只记得零星片段。大模型处理长上下文时也是类似的。

这也是为什么即使上下文窗口扩大到 1M tokens，依然需要外部记忆系统——窗口大了，但中间部分还是容易丢失。

跨会话记忆。窗口在每次新对话时重置。上周的项目、用户偏好——全部归零。

二、三种记忆，三种角色

2026年的 Agent 记忆架构已经收敛到共识模式：三层记忆架构，对应人类认知中的情景、语义和程序记忆。

情景记忆（Episodic）— 发生了什么

记录「什么时间、什么地点、发生了什么」。每轮对话的结构化日志，按 (租户, 用户, 会话, 轮次) 索引存储在事务型数据库中。

语义记忆（Semantic）— 我知道了什么

从情景记忆提炼出的事实、实体、关系。跨会话持久化——无论开多少次新窗口，Agent 都应记得用户信息。

用户偏好：如「用户用微信支付」（数月到永久）

实体关系：如「用户在研发部」（永久）

领域知识：如「API 限速 100 req/min」（随版本更新）

程序记忆（Procedural）— 我会做什么

Agent 学会的操作流程、技能、工具用法。每一次成功执行强化技能，每一次失败是修正的机会。

💡

三个记忆层必须物理分离、schema 独立、可单独寻址，才能避免数据混在一起的问题。

📊

三层架构一图流：情景记忆（发生了什么）+ 语义记忆（我知道了什么）+ 程序记忆（我会做什么）。每个层有独立的读写路径、生命周期和存储后端，通过巩固管道连接。

三、Write-Manage-Read：记忆的生命周期

2026年综合综述（arXiv:2603.07670）将 Agent 记忆形式化为 Write-Manage-Read 循环，嵌入 POMDP 框架：

什么是「POMDP」？

POMDP（Partially Observable Markov Decision Process）是描述 Agent 在不完全信息环境中决策的数学模型。

用大白话说：Agent 看不到世界的全部信息（就像你闭着眼睛走路），只能靠过去的观察和记忆来推断当前状态。记忆就是 Agent 对「世界现在是什么样」的信念。

把 Agent 记忆形式化为 POMDP 的好处是：有了理论框架来讨论「什么该记、什么该忘、如何检索」，而不是凭经验拍脑袋设计。

记忆不是一堆文字的快照，而是 Agent 在不完全信息世界中的信念状态。

编码（Write）— 每轮写入

每轮对话结束时，Agent 将结构化事件写入情景存储，包含租户、会话、轮次、角色、内容、工具调用等字段。写是同步的——写入不成功则本轮不算完成。

巩固（Consolidation）— 异步提炼

巩固是连接三层记忆的管道，每 N 轮或 N 分钟异步运行一次：

事实提取：从最近事件中提取实体和关系 → 写入语义存储

工作流检测：识别重复成功的任务序列 → 提升为程序记忆

摘要压缩：旧事件压缩为会话摘要（原始数据保留审计）

遗忘与衰减：过期事实降低权重、失效工作流降级

⚠️

语义和程序记忆只能通过巩固管道写入，对话循环中禁止直接写入。这确保所有事实都有溯源链。

检索（Read）— 混合读取

每轮开始前检索三层：最近 N 轮情景 + Top-K 语义 + Top-M 工作流。结果包有硬上限（如 8+12+4），超出部分丢弃并记录日志。

四、2026年最值得关注的两个记忆系统

Mem0：多信号检索的标杆

Mem0（48K GitHub Stars）是当前最成熟的开源 Agent 记忆层。

什么是「多信号检索」？

传统检索只用向量相似度（embedding），Mem0 跑三个并行评分通道后融合：语义匹配（主要）+ BM25关键词匹配（补充）+ 实体识别（补充）。三路融合比单语义搜索高出约 16 分。

基准成绩（2026年5月官方数据）：

LoCoMo：92.5（每轮 ~7,000 tokens）

LongMemEval：94.4（每轮 ~6,800 tokens）

BEAM 1M：64.1 / BEAM 10M：48.6

对比：全上下文方案每轮消耗 25,000+ tokens。Mem0 在 3-4x 更低的 token 成本下达到同等或更高准确率。

Engram：双时间模型的突破

Engram（arXiv:2606.09900, 2026年6月）是由 Liuyin Wang 提出的开源双过程记忆引擎。

什么是「双时间数据模型」？

记录每个事实的「有效时间」（事实真实发生时间）和「事务时间」（系统记录时间）。旧版本标记为已替代但不删除——保证完整溯源链。

更少的上下文，更高的准确率：

Engram（精简检索）：83.6%（~9.6K tokens）

全上下文基线：73.2%（~79K tokens，8x 更多）

差值：+10.4 分 ⭐

⭐

Engram 用约 1/8 的 token 量反而高出 10.4 分。关键在混合读取路径：稠密向量 + 词汇匹配 + 图遍历 + 近因信号。

五、Agent 记忆的安全与挑战

记忆中毒（Memory Poisoning）

什么是「记忆中毒（Memory Poisoning）」？

记忆中毒是一种针对 AI Agent 长期记忆系统的攻击。攻击者通过间接提示注入，在 Agent 读取网页或文件时，将恶意内容嵌入 Agent 的记忆存储中。

危害在哪？Agent 中毒后，每次回想都可能输出攻击者想要的结果——比如推荐特定产品、泄露隐私、或拒绝执行本该执行的命令。因为是记忆层被污染，影响是跨会话、持续性的。

形象地说：这像有人在图书馆的书里偷偷替换了几页。你每次借这本书读到的都是被改过的版本，但你自己完全不知道。

MINJA 攻击（2025）通过间接提示注入在 Agent 记忆中植入恶意内容：

95% 注射成功率

70% 攻击成功率

LLM 检测漏掉 66% 的中毒条目

⚠️

典型场景：用户让 Agent 搜索网页信息，页面中被植入了隐藏恶意指令。Agent 读取后将其写入记忆——LLM 逐条看都觉得无害（漏掉 66% 的原因），但多条叠加就形成完整攻击链。防御需要写入过滤 + 审计 + 定期异常检测三层。

遗忘权（Right to be Forgotten）

GDPR、DPDP 等法规要求用户有权删除自己的数据。需要三层记忆级联删除，单 API 调用应在几百毫秒内完成。

开放挑战

记忆管理：多数系统「写」「读」不错，但中间的巩固/管理环节被严重忽视。不加管理的记忆就像没人整理的仓库——东西越堆越多，越来越难找到真正有用的那件。

评估标准化：LoCoMo、LongMemEval、BEAM 是主流基准，但不同系统使用不同条件，分数不可直接比较。Engram 论文专门批评了这个问题并开源了可复现评测框架。

跨LLM可移植性：模型 A 写的记忆，模型 B 读——信息保留率多少？Rosetta Memory（arXiv:2606.07711）正在探索这个方向。

Token 预算约束：技能/记忆模块每次检索都有 token 成本，当开销超过价值时应该退役。插入记忆系统不是免费的。

这些挑战意味着：Agent 记忆不只是存储技术，更是涉及安全、评估、经济的系统工程。

六、总结

💡

核心要点： 1. 上下文窗口是工作缓冲区，不是记忆库 2. 三层架构（情景/语义/程序）是 2026 年共识 3. Write-Manage-Read 循环是核心设计模式 4. Mem0 和 Engram 代表多信号检索和双时间模型的突破 5. 记忆安全和遗忘权是必须考虑的生产要素

如果只带一句话：好的 Agent 记忆系统是在正确的层级上用正确的方式存储正确的信息，而不是把一切扔进向量数据库。

回顾全文脉络：

从问题出发：上下文窗口是工作台不是书架，扩大窗口解决不了记忆问题

到架构设计：三层记忆 + Write-Manage-Read 循环是 2026 年共识模式

到实现落地：Mem0 和 Engram 代表两种不同的工程路径

到安全挑战：记忆中毒、遗忘权、评估标准化——系统工程远未完工

📊

实战选型建议： • 产品级快速落地 → Mem0（平台成熟，48K⭐） • 需要强溯源审计 → Engram（双时间模型，完整溯源链） • 多租户 SaaS 场景 → 三层架构 + 独立租户隔离 • 从零开始建议 → 先做情景存储，再加巩固管道，最后上语义和程序记忆

值得关注的下一步方向：

记忆巩固自动化——当前手动设计巩固规则，未来需要 Agent 自主管理记忆质量

跨会话身份追踪——让 Agent 在不同会话间识别同一用户和同一实体

时效与遗忘——不是所有信息都需永久保留，如何自动衰减和遗忘是开放问题

延伸阅读与参考资料

arxiv.org

https://arxiv.org/abs/2603.07670

arxiv.org

https://arxiv.org/abs/2512.13564

arxiv.org

https://arxiv.org/abs/2606.09900

arxiv.org

https://arxiv.org/abs/2504.19413

www.appscale.blog

https://www.appscale.blog/en/blog/agent-memory-architecture-episodic-semantic-procedural-the-three-tier-pattern-2026

aiagentmemory.org

https://aiagentmemory.org/articles/context-window-problem-llm/

mem0.ai

https://mem0.ai/research

towardsdatascience.com

https://towardsdatascience.com/a-practical-guide-to-memory-for-autonomous-llm-agents/

zylos.ai

https://zylos.ai/research/2026-04-05-ai-agent-memory-architectures-persistent-knowledge/

unit42.paloaltonetworks.com

https://unit42.paloaltonetworks.com/indirect-prompt-injection-poisons-ai-longterm-memory/

mem0.ai

https://mem0.ai/blog/ai-memory-security-best-practices

arxiv.org

https://arxiv.org/abs/2602.19320

arxiv.org

https://arxiv.org/abs/2501.13956

arxiv.org

https://arxiv.org/abs/2601.03236