Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆，如何构建持续进化的 Agent

一、一场关于”AI 如何记住”的路线之争

2026年5月，AI Agent 领域同时发生了两件看似无关、实则指向同一个根本问题的大事：

5月7日，Memori Labs 发布 Agent-Native Memory 基础设施，宣称能从 Agent 的执行痕迹（tool calls、决策、结果）中自动构建结构化记忆，在 LoCoMo benchmark 上以 81.95% 的准确率、仅用 1,294 tokens/query 碾压了 Zep、LangMem、Mem0 等所有检索式记忆系统。
5月7-8日，Anthropic 在 Code with Claude 大会上推出 Dreaming——让 Claude Managed Agents 通过回顾历史会话来主动整理自己的记忆，合并重复、替换过时记录、发现跨会话模式，像人类睡眠时的大脑一样”消化”经验。

这两件事引爆了一个根本性问题：

Agent 的记忆，究竟应该从”说了什么”（会话历史）还是”做了什么”（执行轨迹）中提取？两条路线是互补，还是终将殊途？

这不是一个纯技术问题。当 49 万+的 Agent Skills 正在全球生态中爆炸式增长（Anthropic 维护的 Agent Skills 开放标准、AWS Agent Toolkit 发布 40+ 生产级技能、高德 SkillClaw 开源集体技能演化框架……），记忆与技能的耦合方式将决定 Agent 是”临时工”还是”老师傅”。

📌 核心数据

截至 Q1 2026，全球公开 Agent Skills 数量突破 490,000。Anthropic Agent Skills 标准被 Claude Code、Cursor、Codex、Gemini CLI 等 30+ 平台采用。AWS Agent Toolkit 首发即发布 40+ 技能，覆盖 IaC、存储、分析、Serverless 等场景。

本文将深入这场记忆范式之争，解剖两条技术路线各自的假设、局限与野心，并揭示一个被大多数人忽略的第三条路。

二、Anthropic Dreaming：会话记忆的自省范式

2.1 核心机制

Dreaming 的逻辑非常直觉：Agent 在每个会话中都在产生记忆，但人类大脑不会翻聊天记录来学习——它会在睡眠中整理。

技术实现上，Dreaming 是一个异步调度任务，输入是：

一个已有的 Memory Store
最多 100 个历史会话 Transcript

输出是一个全新的、独立的 Memory Store，其中：

重复条目被合并
过时/矛盾记录被替换为最新值
跨会话反复出现的模式被提取为结构化洞察

原始 Memory Store 不会被修改——开发者可以审查、比较、丢弃输出后再决定是否上线。

2.2 它解决了什么问题

传统的 Agent 会话记忆面临三个致命痛点：

痛点	Dreaming 的解法
记忆膨胀	会话历史线性增长，上下文窗口溢出 → 只将高信号内容写入 Memory Store，原始 transcript 不变
垃圾堆积	一次性调试信息、过时偏好充斥记忆 → 定期回顾 → 合并重复 → 淘汰矛盾项
单会话盲区	Agent 无法意识到自己反复犯同一个错 → 跨 100 个会话检测模式 → “你在这 12 次中都犯了同类错误”

2.3 关键隐喻

Anthropic 用了一个精妙的隐喻：

Memory 是写日记，Dreaming 是整理日记。

Memory（2026年4月已 Public Beta）：实时记录，”今天客户说想要蓝色按钮”
Dreaming（Research Preview）：周回顾，”过去三周五个客户都提到了按钮颜色偏好，需要建立颜色偏好规则”

2.4 局限与风险

但这条路线有一个根本性缺陷：Dreaming 只消化 Agent “说过的话”，不消化 Agent “做过的事”。

当 Agent 执行了以下操作：

执行轨迹（不可见）1. 调用 search_api(“Q2 revenue”) → 返回表格 A 2. 基于表格 A 调用 generate_report() → 生成报告 B 3. 将报告 B 上传到 S3 存储桶 → success 4. 发送 Slack 通知给 CFO → delivered

Dreaming 能从对话 transcript 中知道”生成了一个报告”，但无法知道：

search_api 的查询参数和返回结构
generate_report 的内部逻辑链
S3 上传的具体路径和文件格式
Slack 通知的精确内容和接收人

这些执行细节——正是 Agent 技能（Skills）产生和优化的地方——对 Dreaming 来说是不可见的黑箱。
这引出了一个尖锐的问题：如果记忆只建在会话文本上，那技能迭代所需的”执行反馈”从哪来？

三、Memori Labs：执行记忆的结构化革命

3.1 核心机制

Memori 的出发点与 Dreaming 截然不同。它不从”Agent 说了什么”开始，而是从“Agent 做了什么”开始。

其 Advanced Augmentation 管线将 Agent 的完整执行轨迹——包括：

每一条用户消息
每一个工具调用及其参数
每一个工具返回结果
Agent 在每个决策点的推理过程
最终输出

——通过一个全自动的离线管线，压缩为两种结构化资产：

结构化资产	描述	示例
Semantic Triples 语义三元组	(subject, predicate, object) 格式的原子事实	(user_x, prefers_date_format, “DD/MM/YYYY”)
Conversation Summaries 会话摘要	保留叙事流的高层级概述，与三元组双向链接	“客户偏好讨论 → 确认格式 → 写入个人配置”

3.2 LoCoMo Benchmark 的统治级表现

在专门为多会话长程记忆设计的 LoCoMo benchmark 上，Memori 的成绩具有统计学意义上的碾压性：

方法	Multi-Hop	Temporal	Open-Domain	Single-Hop	Overall
Full Context（理论天花板）	88.53	77.70	71.88	92.70	87.52
✅ Memori	—	—	—	—	81.95
Zep	—	—	—	—	79.09
LangMem	—	—	—	—	78.05
Mem0	—	—	—	—	62.47

🔑 关键数字

81.95% 准确率，距离 Full Context 天花板仅差 5.57 个百分点 —— 每个查询仅需 1,294 tokens，仅为全量上下文的 4.97%。对于每天处理 1000 次查询的 Agent，推理成本约为全上下文方案的 1/20。

3.3 它解决了 Dreaming 解决不了的问题

Memori 天然能捕获执行层面的记忆：

工具调用模式：”当用户问 Q2 收入时，Agent 总会先调用 search_api 再调用 format_table”
参数偏好：”Agent 在调用 send_email 时总是 CC 给 finance-team@company.com”
失败模式：”API 超时发生在使用 region=APAC 且 timeout<30s 时”
决策逻辑链：”Agent 在数据缺失时倾向于使用上一个月数据而非报错”

这些信息不存在于任何会话 transcript 中——它们只存在于执行轨迹（execution trace）里。

3.4 局限与风险

Memori 的软肋在于：

无自主进化能力：它是一个”被动记录器”，结构化存储执行轨迹，但不决定”哪些行为模式值得提炼为可复用技能”
无跨会话模式发现：它能精确回忆”上周三那次调用”，但不主动告诉你”你最近十次都在用同样低效的查询模式”
依赖外部触发：记忆结构化在离线管线中完成，不参与实时推理循环

本质上，Memori 是一台高精度的记忆”打印机”——但它不决定该印什么。

四、Skills：连接记忆与行为的催化剂

4.1 为什么 Skills 是第三维度

当我们在讨论记忆时，实际上遗漏了一个关键角色——Skills（技能）：

Memory（记忆）：保存过去发生过的事实
Skills（技能）：编码可复用的行为模式，指导未来的行动

两者互相增强，共同构成 Agent 的”经验体系”。

4.2 两条路线对 Skills 的不同态度

Anthropic Dreaming 的隐含假设：Skills 会从整理好的记忆中”自然涌现”。

Dreaming 通过回顾多个会话，发现”Agent 总是先做 X 再做 Y”，这种模式可以被提炼为一个技能。但截至目前，Dreaming 本身不生成 Skills 文件，它只更新 Memory Store。Skills 的创建仍需开发者手动编写 SKILL.md。

Memori 的隐含假设：Skills 应该从结构化的执行轨迹中自动提取。

Memori 的 semantic triples 天然可以映射到技能描述。但 Memori 当前的版本也尚未自动化这一步——它提供了高质量的结构化数据，但如何将这些数据转化为可安装的 Skills，仍是一个开放问题。

4.3 真正激进的先行者

EvoSkill（Sentient AGI，692⭐）和 SkillClaw（高德 AMAP-ML，1,242⭐）实际上指向了同一条路径——记忆的终极形态是可执行的技能，而技能的进化需要持续的记忆输入。

EvoSkill：从失败轨迹中自动发现并合成可复用技能，5 阶段进化循环（Base Agent → Proposer → Generator → Evaluator → Frontier）
SkillClaw：零干预自动进化，从真实 Agent 会话中自动提炼 SKILL.md，自动去重和优化，支持跨 Agent/跨设备/跨团队的技能共享

五、核心冲突：三条根本分歧

5.1 分歧一：记忆的原材料是什么？

	Anthropic Dreaming	Memori Labs
原材料	会话 transcript（人类可读文本）	执行轨迹（tool calls + results）
信息密度	低（大量客套、重复、省略）	高（每个字段都有结构化含义）
可操作性	弱（知道”聊了什么”，但不知”做了什么决定”）	强（知道”在什么条件下调了什么工具”）
成本	极低（只处理已有文本）	较高（需拦截和存储完整执行数据）

核心冲突：Dreaming 认为”语言本身就是记忆”，Memori 认为”行为才是记忆”。前者是人类中心主义的，后者是机器中心主义的。

5.2 分歧二：谁来整理记忆？

	Anthropic Dreaming	Memori Labs
整理主体	LLM（用大模型推理来总结）	管线（确定性 ETL 流程）
可控性	低（黑盒 LLM 的判断可能不符合预期）	高（每一步提取逻辑可审计）
智能度	高（LLM 能发现微妙的跨会话模式）	中（依赖预定义的提取规则）
成本可预测性	低（token 消耗随会话数线性增长）	高（固定成本）

核心冲突：Anthropic 押注 LLM 可以成为自己的记忆管家，Memori 则认为记忆管理应该是一个确定性的数据工程问题。

5.3 分歧三：记忆的目的是什么？

	Anthropic Dreaming	Memori Labs
短期目标	让下一次对话更聪明	让下一次执行更准确
长期愿景	Agent 的自我意识进化	Agent 的高效工程化部署
衡量标准	“Agent 是否变得更聪明了？”	“Agent 是否犯更少的错了？”
适用场景	开放域、长期陪伴型 Agent	生产域、高频任务型 Agent

核心冲突：Dreaming 追求的是”智能涌现”，Memori 追求的是”执行效率”。一个想造一个有灵魂的助手，一个想造一个靠谱的工人。

六、超越冲突：Experience Compression Spectrum 的统一框架

2026年4月的重磅论文 “Experience Compression Spectrum”（arXiv:2604.15877）提出了一个统一视角：

记忆（Memory）、技能（Skills）、规则（Rules）不是三个不同的问题，而是同一种操作——将经验压缩为可复用知识——在不同压缩比下的产物。

层级	压缩比	产物	当前代表
L1 — Episodic 情节记忆	5-20×	结构化事件记录	Memori 的 semantic triples、Dreaming 的 Memory Store
L2 — Procedural 程序记忆/技能	50-500×	可复用的行为模式	EvoSkill 生成的 SKILL.md、SkillClaw 自动提炼的技能
L3 — Declarative 陈述性知识/规则	1,000×+	抽象决策原则	Agent 自我总结的最佳实践

6.1 真正的架构应该是”全频谱”的

L3 规则沉淀

Agent 自我总结
最佳实践

⬆ 渐进式压缩

L2 技能提取

EvoSkill

SkillClaw

手动编写 Skills

⬆ 结构化提取

L1 情节记忆

Dreaming（文本摘要）

Memori（结构提取）

⬆ 原始数据

执行轨迹与会话 Transcript

当前没有任何一个系统打通了全链路。Dreaming 停在 L1，Memori 停在 L1，EvoSkill 从 L1 直接跳到 L2（跳过结构化的 L1 存储），SkillClaw 试图同时做 L1→L2 但仍以技能生成为主要目标。

七、实战分析：两个 Agent 的成长路径对比

场景：一个负责处理客户退款的 Agent

第一天

客户 A 申请退款，Agent 查询订单→确认状态→处理退款→发送通知。

Dreaming 路线：在 Memory Store 中记录”今天处理了客户 A 的退款申请，订单号 #12345，原因是产品质量问题”
Memori 路线：在 triple store 中记录 (订单 #12345, refund_reason, 产品质量问题)、(订单 #12345, refund_process, [查询→确认→退款→通知])、(订单 #12345, resolution_time, 45秒)

第三十天

已处理 200 个退款案例。

Dreaming 路线：Agent 回顾过去 30 天的记忆，发现”产品质量退款占总量的 60%，且在这些案例中多查询了一次不必要的质检报告”。更新记忆：”产品质量退款通常不需要质检报告查询”。
Memori 路线：Memori 的离线管线发现 (查询质检报告, before, 发起退款) 在 120 个案例中出现，但其中 115 个案例中质检报告字段为空，生成 triple：(refund_workflow, optimization, "跳过质检查询可节省30%时间")。

第九十天

Dreaming 路线：Agent 的记忆变得更有结构性，但它仍然需要每次重新执行工作流——只是执行时”更聪明”了。它没有生成一个”技能文件”。
Memori 路线：Memori 积累的 structured triples 可以被 EvoSkill 或 SkillClaw 自动生成一个优化后的退款处理 Skill，以后的 Agent 甚至其他团队的 Agent 都可以直接安装使用。

核心差异：Dreaming 让同一个 Agent 变得越来越好（纵向深化），Memori + Skills 让整个 Agent 生态变得越来越好（横向扩展）。

八、行业信号：巨头们的选择

厂商/项目	记忆策略	技能策略	路线倾向
Anthropic	Dreaming（会话自省）	Agent Skills 标准（被动）	会话记忆 → 智能涌现
AWS	Agent Toolkit + MCP Server	40+ 生产级技能	技能优先，记忆让位
Google ADK	上下文管理优化	ADK Skills（实验中）	等待观察
Microsoft	A2A 协议	Agent Framework + Skills	框架先行
高德 SkillClaw	从执行轨迹提取	自动技能生成	执行记忆 → 自动技能
Memori Labs	结构化执行记忆	暂未涉及	记忆基础设施

值得关注的信号：

Anthropic 的 Alex Albert 公开表示：”Dreaming 的本质是模型在创造技能——它从经验中总结出可复用的行为模式”。这意味着 Anthropic 可能正在计划让 Dreaming 自动生成 SKILL.md 文件，从 L1 直接跨越到 L2。
OpenClaw 同时集成了 Memori 插件和 SkillClaw 进化引擎，试图在单一平台上打通”记忆 → 技能”的完整链路，可能是最接近全频谱架构的实践。

九、构建持续进化 Agent 的设计原则

原则一：不在会话记忆和执行记忆之间做选择

两者捕捉不同维度的信息。

会话记忆擅长捕获意图和决策理由（”为什么这么做”）
执行记忆擅长捕获行为和结果（”做了什么，效果如何”）

最佳实践是双轨并行，用不同存储策略处理不同类型的数据。

原则二：从 Day 1 就设计”记忆 → 技能”的转化通道

不要等到积累了大量记忆才开始考虑如何提炼技能。在架构设计阶段预留接口，让记忆管线能输出结构化的”行为模式描述”，直接转化为 SKILL.md 草稿。

原则三：接受渐进式进化，不要追求一步到位

Phase 1：用 Memori 或类似方案实现结构化执行记忆
Phase 2：引入 EvoSkill 或 SkillClaw 实现技能的自动生成和优化
Phase 3：用 Dreaming 或类似方案实现跨会话的自我反思
Phase 4：打通全链路，实现”执行 → 记忆 → 技能 → 进化”的闭环

原则四：警惕”记忆陷阱”

三条筛选标准：

频率：这个模式出现过 3 次以上吗？
价值：这个记忆能显著提高成功率或降低成本吗？
时效性：这个记忆在未来 30 天内还会被用到吗？

好的记忆系统不在于记住多少，而在于忘掉什么。

十、结论：Agent 的”成人礼”

2026年的 AI Agent 正站在一个分水岭上。

过去两年，我们教会了 Agent “如何做事”（Skills）。现在，我们正在教会它们“如何从做事中学习”（Memory + Dreaming）。

Anthropic Dreaming 代表了一条自上而下的路线：相信大模型有足够的智能来整理自己的经验。Memori Labs 代表了一条自下而上的路线：相信只要把数据结构化得足够好，模式和洞察会自然浮现。

两条路线都有道理，也都有盲区。

真正的突破点不在于选择哪条路，而在于设计一个能同时走两条路的架构——让执行记忆为技能进化提供原材料，让会话记忆为决策优化提供上下文，让技能反过来提升执行的质量，形成一个螺旋上升的飞轮。

🎯 终极图景

当 Agent 不仅能做事，还能记住自己做过什么，并从中提炼出”做事的方法”时——它就不再是一个工具，而是一个会成长的数字同事。
这，就是 Agent Memory + Skills 双轮驱动的终极图景。

参考: LoCoMo Benchmark 数据来自 Memori Labs 官方文档；Dreaming 技术细节来自 Anthropic Platform Docs；Experience Compression Spectrum 论文 arXiv:2604.15877；Agent Skills 生态数据来自 byteiota.com 2026 报告及 GitHub 统计。

运维速度

或者查看我们的热门类别...