一、为什么需要给AI装记忆?
你有没有遇到过这种情况——和一个 AI 助手聊了半小时,它突然问你「你的名字是什么?」明明十分钟前刚说过。
这不是 AI 笨,是上下文窗口的物理限制。
上下文窗口不是什么「记忆」
大语言模型的工作方式是:每次对话,把所有内容塞进一个固定大小的上下文窗口里。
- GPT-3(2020):2K tokens
- GPT-4(2023):32K tokens
- Claude 2(2023):100K tokens
- Gemini 1.5 Pro(2024):1M tokens
类比一下:你的办公桌(上下文窗口)可以放很多文件,但下班后桌子被清空。记忆是你的书架——下班了书还在上面。

为什么不能全靠扩大窗口?
三个原因:
- 计算成本爆炸。Transformer 自注意力是 O(N²)——窗口每扩大一倍,算力翻四倍。
- 「Lost in the Middle」。模型倾向记住开头和结尾,中间丢失。
什么是「Lost in the Middle」?
LLM 在处理超长文本时,对开头和结尾的内容记忆最好,中间部分容易被「淹没」。这是因为自注意力机制中,中间的 tokens 同时受到前后信息的干扰,信号最弱。
举例:读一本 300 页的书,你最容易记住前 10 页和后 10 页,中间 280 页的内容可能只记得零星片段。大模型处理长上下文时也是类似的。
这也是为什么即使上下文窗口扩大到 1M tokens,依然需要外部记忆系统——窗口大了,但中间部分还是容易丢失。
- 跨会话记忆。窗口在每次新对话时重置。上周的项目、用户偏好——全部归零。
二、三种记忆,三种角色
2026年的 Agent 记忆架构已经收敛到共识模式:三层记忆架构,对应人类认知中的情景、语义和程序记忆。
情景记忆(Episodic)— 发生了什么
记录「什么时间、什么地点、发生了什么」。每轮对话的结构化日志,按 (租户, 用户, 会话, 轮次) 索引存储在事务型数据库中。
语义记忆(Semantic)— 我知道了什么
从情景记忆提炼出的事实、实体、关系。跨会话持久化——无论开多少次新窗口,Agent 都应记得用户信息。
- 用户偏好:如「用户用微信支付」(数月到永久)
- 实体关系:如「用户在研发部」(永久)
- 领域知识:如「API 限速 100 req/min」(随版本更新)
程序记忆(Procedural)— 我会做什么
Agent 学会的操作流程、技能、工具用法。每一次成功执行强化技能,每一次失败是修正的机会。
三个记忆层必须物理分离、schema 独立、可单独寻址,才能避免数据混在一起的问题。
三层架构一图流:情景记忆(发生了什么)+ 语义记忆(我知道了什么)+ 程序记忆(我会做什么)。每个层有独立的读写路径、生命周期和存储后端,通过巩固管道连接。

三、Write-Manage-Read:记忆的生命周期

2026年综合综述(arXiv:2603.07670)将 Agent 记忆形式化为 Write-Manage-Read 循环,嵌入 POMDP 框架:
什么是「POMDP」?
POMDP(Partially Observable Markov Decision Process)是描述 Agent 在不完全信息环境中决策的数学模型。
用大白话说:Agent 看不到世界的全部信息(就像你闭着眼睛走路),只能靠过去的观察和记忆来推断当前状态。记忆就是 Agent 对「世界现在是什么样」的信念。
把 Agent 记忆形式化为 POMDP 的好处是:有了理论框架来讨论「什么该记、什么该忘、如何检索」,而不是凭经验拍脑袋设计。
记忆不是一堆文字的快照,而是 Agent 在不完全信息世界中的信念状态。
编码(Write)— 每轮写入
每轮对话结束时,Agent 将结构化事件写入情景存储,包含租户、会话、轮次、角色、内容、工具调用等字段。写是同步的——写入不成功则本轮不算完成。
巩固(Consolidation)— 异步提炼
巩固是连接三层记忆的管道,每 N 轮或 N 分钟异步运行一次:
- 事实提取:从最近事件中提取实体和关系 → 写入语义存储
- 工作流检测:识别重复成功的任务序列 → 提升为程序记忆
- 摘要压缩:旧事件压缩为会话摘要(原始数据保留审计)
- 遗忘与衰减:过期事实降低权重、失效工作流降级
语义和程序记忆只能通过巩固管道写入,对话循环中禁止直接写入。这确保所有事实都有溯源链。
检索(Read)— 混合读取
每轮开始前检索三层:最近 N 轮情景 + Top-K 语义 + Top-M 工作流。结果包有硬上限(如 8+12+4),超出部分丢弃并记录日志。
四、2026年最值得关注的两个记忆系统
Mem0:多信号检索的标杆
Mem0(48K GitHub Stars)是当前最成熟的开源 Agent 记忆层。
什么是「多信号检索」?
传统检索只用向量相似度(embedding),Mem0 跑三个并行评分通道后融合:语义匹配(主要)+ BM25关键词匹配(补充)+ 实体识别(补充)。三路融合比单语义搜索高出约 16 分。
基准成绩(2026年5月官方数据):
- LoCoMo:92.5(每轮 ~7,000 tokens)
- LongMemEval:94.4(每轮 ~6,800 tokens)
- BEAM 1M:64.1 / BEAM 10M:48.6
对比:全上下文方案每轮消耗 25,000+ tokens。Mem0 在 3-4x 更低的 token 成本下达到同等或更高准确率。

Engram:双时间模型的突破
Engram(arXiv:2606.09900, 2026年6月)是由 Liuyin Wang 提出的开源双过程记忆引擎。
什么是「双时间数据模型」?
记录每个事实的「有效时间」(事实真实发生时间)和「事务时间」(系统记录时间)。旧版本标记为已替代但不删除——保证完整溯源链。
更少的上下文,更高的准确率:
- Engram(精简检索):83.6%(~9.6K tokens)
- 全上下文基线:73.2%(~79K tokens,8x 更多)
- 差值:+10.4 分 ⭐
Engram 用约 1/8 的 token 量反而高出 10.4 分。关键在混合读取路径:稠密向量 + 词汇匹配 + 图遍历 + 近因信号。

五、Agent 记忆的安全与挑战
记忆中毒(Memory Poisoning)
什么是「记忆中毒(Memory Poisoning)」?
记忆中毒是一种针对 AI Agent 长期记忆系统的攻击。攻击者通过间接提示注入,在 Agent 读取网页或文件时,将恶意内容嵌入 Agent 的记忆存储中。
危害在哪?Agent 中毒后,每次回想都可能输出攻击者想要的结果——比如推荐特定产品、泄露隐私、或拒绝执行本该执行的命令。因为是记忆层被污染,影响是跨会话、持续性的。
形象地说:这像有人在图书馆的书里偷偷替换了几页。你每次借这本书读到的都是被改过的版本,但你自己完全不知道。
MINJA 攻击(2025)通过间接提示注入在 Agent 记忆中植入恶意内容:
- 95% 注射成功率
- 70% 攻击成功率
- LLM 检测漏掉 66% 的中毒条目
典型场景:用户让 Agent 搜索网页信息,页面中被植入了隐藏恶意指令。Agent 读取后将其写入记忆——LLM 逐条看都觉得无害(漏掉 66% 的原因),但多条叠加就形成完整攻击链。防御需要写入过滤 + 审计 + 定期异常检测三层。

遗忘权(Right to be Forgotten)
GDPR、DPDP 等法规要求用户有权删除自己的数据。需要三层记忆级联删除,单 API 调用应在几百毫秒内完成。
开放挑战
- 记忆管理:多数系统「写」「读」不错,但中间的巩固/管理环节被严重忽视。不加管理的记忆就像没人整理的仓库——东西越堆越多,越来越难找到真正有用的那件。
- 评估标准化:LoCoMo、LongMemEval、BEAM 是主流基准,但不同系统使用不同条件,分数不可直接比较。Engram 论文专门批评了这个问题并开源了可复现评测框架。
- 跨LLM可移植性:模型 A 写的记忆,模型 B 读——信息保留率多少?Rosetta Memory(arXiv:2606.07711)正在探索这个方向。
- Token 预算约束:技能/记忆模块每次检索都有 token 成本,当开销超过价值时应该退役。插入记忆系统不是免费的。
这些挑战意味着:Agent 记忆不只是存储技术,更是涉及安全、评估、经济的系统工程。
六、总结
核心要点:
1. 上下文窗口是工作缓冲区,不是记忆库
2. 三层架构(情景/语义/程序)是 2026 年共识
3. Write-Manage-Read 循环是核心设计模式
4. Mem0 和 Engram 代表多信号检索和双时间模型的突破
5. 记忆安全和遗忘权是必须考虑的生产要素
如果只带一句话:好的 Agent 记忆系统是在正确的层级上用正确的方式存储正确的信息,而不是把一切扔进向量数据库。
回顾全文脉络:
- 从问题出发:上下文窗口是工作台不是书架,扩大窗口解决不了记忆问题
- 到架构设计:三层记忆 + Write-Manage-Read 循环是 2026 年共识模式
- 到实现落地:Mem0 和 Engram 代表两种不同的工程路径
- 到安全挑战:记忆中毒、遗忘权、评估标准化——系统工程远未完工
实战选型建议:
• 产品级快速落地 → Mem0(平台成熟,48K⭐)
• 需要强溯源审计 → Engram(双时间模型,完整溯源链)
• 多租户 SaaS 场景 → 三层架构 + 独立租户隔离
• 从零开始建议 → 先做情景存储,再加巩固管道,最后上语义和程序记忆
值得关注的下一步方向:
- 记忆巩固自动化——当前手动设计巩固规则,未来需要 Agent 自主管理记忆质量
- 跨会话身份追踪——让 Agent 在不同会话间识别同一用户和同一实体
- 时效与遗忘——不是所有信息都需永久保留,如何自动衰减和遗忘是开放问题
延伸阅读与参考资料
- 作者:海鸥旅人
- 链接:玻璃小屋.cn/article/ai-agent-memory-architecture-2026
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。






