一、一场关于”AI 如何记住”的路线之争
2026年5月,AI Agent 领域同时发生了两件看似无关、实则指向同一个根本问题的大事:
- 5月7日,Memori Labs 发布 Agent-Native Memory 基础设施,宣称能从 Agent 的执行痕迹(tool calls、决策、结果)中自动构建结构化记忆,在 LoCoMo benchmark 上以 81.95% 的准确率、仅用 1,294 tokens/query 碾压了 Zep、LangMem、Mem0 等所有检索式记忆系统。
- 5月7-8日,Anthropic 在 Code with Claude 大会上推出 Dreaming——让 Claude Managed Agents 通过回顾历史会话来主动整理自己的记忆,合并重复、替换过时记录、发现跨会话模式,像人类睡眠时的大脑一样”消化”经验。
这两件事引爆了一个根本性问题:
Agent 的记忆,究竟应该从”说了什么”(会话历史)还是”做了什么”(执行轨迹)中提取?两条路线是互补,还是终将殊途?
这不是一个纯技术问题。当 49 万+的 Agent Skills 正在全球生态中爆炸式增长(Anthropic 维护的 Agent Skills 开放标准、AWS Agent Toolkit 发布 40+ 生产级技能、高德 SkillClaw 开源集体技能演化框架……),记忆与技能的耦合方式将决定 Agent 是”临时工”还是”老师傅”。
截至 Q1 2026,全球公开 Agent Skills 数量突破 490,000。Anthropic Agent Skills 标准被 Claude Code、Cursor、Codex、Gemini CLI 等 30+ 平台采用。AWS Agent Toolkit 首发即发布 40+ 技能,覆盖 IaC、存储、分析、Serverless 等场景。
本文将深入这场记忆范式之争,解剖两条技术路线各自的假设、局限与野心,并揭示一个被大多数人忽略的第三条路。
二、Anthropic Dreaming:会话记忆的自省范式
2.1 核心机制
Dreaming 的逻辑非常直觉:Agent 在每个会话中都在产生记忆,但人类大脑不会翻聊天记录来学习——它会在睡眠中整理。
技术实现上,Dreaming 是一个异步调度任务,输入是:
- 一个已有的 Memory Store
- 最多 100 个历史会话 Transcript
输出是一个全新的、独立的 Memory Store,其中:
- 重复条目被合并
- 过时/矛盾记录被替换为最新值
- 跨会话反复出现的模式被提取为结构化洞察
原始 Memory Store 不会被修改——开发者可以审查、比较、丢弃输出后再决定是否上线。
2.2 它解决了什么问题
传统的 Agent 会话记忆面临三个致命痛点:
2.3 关键隐喻
Anthropic 用了一个精妙的隐喻:
Memory 是写日记,Dreaming 是整理日记。
- Memory(2026年4月已 Public Beta):实时记录,”今天客户说想要蓝色按钮”
- Dreaming(Research Preview):周回顾,”过去三周五个客户都提到了按钮颜色偏好,需要建立颜色偏好规则”
2.4 局限与风险
但这条路线有一个根本性缺陷:Dreaming 只消化 Agent “说过的话”,不消化 Agent “做过的事”。
当 Agent 执行了以下操作:
Dreaming 能从对话 transcript 中知道”生成了一个报告”,但无法知道:
- search_api 的查询参数和返回结构
- generate_report 的内部逻辑链
- S3 上传的具体路径和文件格式
- Slack 通知的精确内容和接收人
这些执行细节——正是 Agent 技能(Skills)产生和优化的地方——对 Dreaming 来说是不可见的黑箱。
这引出了一个尖锐的问题:如果记忆只建在会话文本上,那技能迭代所需的”执行反馈”从哪来?
三、Memori Labs:执行记忆的结构化革命
3.1 核心机制
Memori 的出发点与 Dreaming 截然不同。它不从”Agent 说了什么”开始,而是从“Agent 做了什么”开始。
其 Advanced Augmentation 管线将 Agent 的完整执行轨迹——包括:
- 每一条用户消息
- 每一个工具调用及其参数
- 每一个工具返回结果
- Agent 在每个决策点的推理过程
- 最终输出
——通过一个全自动的离线管线,压缩为两种结构化资产:
3.2 LoCoMo Benchmark 的统治级表现
在专门为多会话长程记忆设计的 LoCoMo benchmark 上,Memori 的成绩具有统计学意义上的碾压性:
81.95% 准确率,距离 Full Context 天花板仅差 5.57 个百分点 —— 每个查询仅需 1,294 tokens,仅为全量上下文的 4.97%。对于每天处理 1000 次查询的 Agent,推理成本约为全上下文方案的 1/20。
3.3 它解决了 Dreaming 解决不了的问题
Memori 天然能捕获执行层面的记忆:
- 工具调用模式:”当用户问 Q2 收入时,Agent 总会先调用 search_api 再调用 format_table”
- 参数偏好:”Agent 在调用 send_email 时总是 CC 给 finance-team@company.com”
- 失败模式:”API 超时发生在使用 region=APAC 且 timeout<30s 时”
- 决策逻辑链:”Agent 在数据缺失时倾向于使用上一个月数据而非报错”
这些信息不存在于任何会话 transcript 中——它们只存在于执行轨迹(execution trace)里。
3.4 局限与风险
Memori 的软肋在于:
- 无自主进化能力:它是一个”被动记录器”,结构化存储执行轨迹,但不决定”哪些行为模式值得提炼为可复用技能”
- 无跨会话模式发现:它能精确回忆”上周三那次调用”,但不主动告诉你”你最近十次都在用同样低效的查询模式”
- 依赖外部触发:记忆结构化在离线管线中完成,不参与实时推理循环
本质上,Memori 是一台高精度的记忆”打印机”——但它不决定该印什么。
四、Skills:连接记忆与行为的催化剂
4.1 为什么 Skills 是第三维度
当我们在讨论记忆时,实际上遗漏了一个关键角色——Skills(技能):
- Memory(记忆):保存过去发生过的事实
- Skills(技能):编码可复用的行为模式,指导未来的行动
两者互相增强,共同构成 Agent 的”经验体系”。
4.2 两条路线对 Skills 的不同态度
Anthropic Dreaming 的隐含假设:Skills 会从整理好的记忆中”自然涌现”。
Dreaming 通过回顾多个会话,发现”Agent 总是先做 X 再做 Y”,这种模式可以被提炼为一个技能。但截至目前,Dreaming 本身不生成 Skills 文件,它只更新 Memory Store。Skills 的创建仍需开发者手动编写 SKILL.md。
Memori 的隐含假设:Skills 应该从结构化的执行轨迹中自动提取。
Memori 的 semantic triples 天然可以映射到技能描述。但 Memori 当前的版本也尚未自动化这一步——它提供了高质量的结构化数据,但如何将这些数据转化为可安装的 Skills,仍是一个开放问题。
4.3 真正激进的先行者
EvoSkill(Sentient AGI,692⭐)和 SkillClaw(高德 AMAP-ML,1,242⭐)实际上指向了同一条路径——记忆的终极形态是可执行的技能,而技能的进化需要持续的记忆输入。
- EvoSkill:从失败轨迹中自动发现并合成可复用技能,5 阶段进化循环(Base Agent → Proposer → Generator → Evaluator → Frontier)
- SkillClaw:零干预自动进化,从真实 Agent 会话中自动提炼 SKILL.md,自动去重和优化,支持跨 Agent/跨设备/跨团队的技能共享
五、核心冲突:三条根本分歧
5.1 分歧一:记忆的原材料是什么?
核心冲突:Dreaming 认为”语言本身就是记忆”,Memori 认为”行为才是记忆”。前者是人类中心主义的,后者是机器中心主义的。
5.2 分歧二:谁来整理记忆?
核心冲突:Anthropic 押注 LLM 可以成为自己的记忆管家,Memori 则认为记忆管理应该是一个确定性的数据工程问题。
5.3 分歧三:记忆的目的是什么?
核心冲突:Dreaming 追求的是”智能涌现”,Memori 追求的是”执行效率”。一个想造一个有灵魂的助手,一个想造一个靠谱的工人。
六、超越冲突:Experience Compression Spectrum 的统一框架
2026年4月的重磅论文 “Experience Compression Spectrum”(arXiv:2604.15877) 提出了一个统一视角:
记忆(Memory)、技能(Skills)、规则(Rules)不是三个不同的问题,而是同一种操作——将经验压缩为可复用知识——在不同压缩比下的产物。
6.1 真正的架构应该是”全频谱”的
最佳实践
当前没有任何一个系统打通了全链路。Dreaming 停在 L1,Memori 停在 L1,EvoSkill 从 L1 直接跳到 L2(跳过结构化的 L1 存储),SkillClaw 试图同时做 L1→L2 但仍以技能生成为主要目标。
七、实战分析:两个 Agent 的成长路径对比
场景:一个负责处理客户退款的 Agent
第一天
客户 A 申请退款,Agent 查询订单→确认状态→处理退款→发送通知。
- Dreaming 路线:在 Memory Store 中记录”今天处理了客户 A 的退款申请,订单号 #12345,原因是产品质量问题”
- Memori 路线:在 triple store 中记录
(订单 #12345, refund_reason, 产品质量问题)、(订单 #12345, refund_process, [查询→确认→退款→通知])、(订单 #12345, resolution_time, 45秒)
第三十天
已处理 200 个退款案例。
- Dreaming 路线:Agent 回顾过去 30 天的记忆,发现”产品质量退款占总量的 60%,且在这些案例中多查询了一次不必要的质检报告”。更新记忆:”产品质量退款通常不需要质检报告查询”。
- Memori 路线:Memori 的离线管线发现
(查询质检报告, before, 发起退款)在 120 个案例中出现,但其中 115 个案例中质检报告字段为空,生成 triple:(refund_workflow, optimization, "跳过质检查询可节省30%时间")。
第九十天
- Dreaming 路线:Agent 的记忆变得更有结构性,但它仍然需要每次重新执行工作流——只是执行时”更聪明”了。它没有生成一个”技能文件”。
- Memori 路线:Memori 积累的 structured triples 可以被 EvoSkill 或 SkillClaw 自动生成一个优化后的退款处理 Skill,以后的 Agent 甚至其他团队的 Agent 都可以直接安装使用。
核心差异:Dreaming 让同一个 Agent 变得越来越好(纵向深化),Memori + Skills 让整个 Agent 生态变得越来越好(横向扩展)。
八、行业信号:巨头们的选择
值得关注的信号:
- Anthropic 的 Alex Albert 公开表示:”Dreaming 的本质是模型在创造技能——它从经验中总结出可复用的行为模式”。这意味着 Anthropic 可能正在计划让 Dreaming 自动生成 SKILL.md 文件,从 L1 直接跨越到 L2。
- OpenClaw 同时集成了 Memori 插件和 SkillClaw 进化引擎,试图在单一平台上打通”记忆 → 技能”的完整链路,可能是最接近全频谱架构的实践。
九、构建持续进化 Agent 的设计原则
原则一:不在会话记忆和执行记忆之间做选择
两者捕捉不同维度的信息。
- 会话记忆擅长捕获意图和决策理由(”为什么这么做”)
- 执行记忆擅长捕获行为和结果(”做了什么,效果如何”)
最佳实践是双轨并行,用不同存储策略处理不同类型的数据。
原则二:从 Day 1 就设计”记忆 → 技能”的转化通道
不要等到积累了大量记忆才开始考虑如何提炼技能。在架构设计阶段预留接口,让记忆管线能输出结构化的”行为模式描述”,直接转化为 SKILL.md 草稿。
原则三:接受渐进式进化,不要追求一步到位
- Phase 1:用 Memori 或类似方案实现结构化执行记忆
- Phase 2:引入 EvoSkill 或 SkillClaw 实现技能的自动生成和优化
- Phase 3:用 Dreaming 或类似方案实现跨会话的自我反思
- Phase 4:打通全链路,实现”执行 → 记忆 → 技能 → 进化”的闭环
原则四:警惕”记忆陷阱”
三条筛选标准:
- 频率:这个模式出现过 3 次以上吗?
- 价值:这个记忆能显著提高成功率或降低成本吗?
- 时效性:这个记忆在未来 30 天内还会被用到吗?
好的记忆系统不在于记住多少,而在于忘掉什么。
十、结论:Agent 的”成人礼”
2026年的 AI Agent 正站在一个分水岭上。
过去两年,我们教会了 Agent “如何做事”(Skills)。现在,我们正在教会它们“如何从做事中学习”(Memory + Dreaming)。
Anthropic Dreaming 代表了一条自上而下的路线:相信大模型有足够的智能来整理自己的经验。Memori Labs 代表了一条自下而上的路线:相信只要把数据结构化得足够好,模式和洞察会自然浮现。
两条路线都有道理,也都有盲区。
真正的突破点不在于选择哪条路,而在于设计一个能同时走两条路的架构——让执行记忆为技能进化提供原材料,让会话记忆为决策优化提供上下文,让技能反过来提升执行的质量,形成一个螺旋上升的飞轮。
当 Agent 不仅能做事,还能记住自己做过什么,并从中提炼出”做事的方法”时——它就不再是一个工具,而是一个会成长的数字同事。
这,就是 Agent Memory + Skills 双轮驱动的终极图景。
参考: LoCoMo Benchmark 数据来自 Memori Labs 官方文档;Dreaming 技术细节来自 Anthropic Platform Docs;Experience Compression Spectrum 论文 arXiv:2604.15877;Agent Skills 生态数据来自 byteiota.com 2026 报告及 GitHub 统计。