Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent

一、一场关于”AI 如何记住”的路线之争

2026年5月,AI Agent 领域同时发生了两件看似无关、实则指向同一个根本问题的大事:

  • 5月7日,Memori Labs 发布 Agent-Native Memory 基础设施,宣称能从 Agent 的执行痕迹(tool calls、决策、结果)中自动构建结构化记忆,在 LoCoMo benchmark 上以 81.95% 的准确率、仅用 1,294 tokens/query 碾压了 Zep、LangMem、Mem0 等所有检索式记忆系统。
  • 5月7-8日,Anthropic 在 Code with Claude 大会上推出 Dreaming——让 Claude Managed Agents 通过回顾历史会话来主动整理自己的记忆,合并重复、替换过时记录、发现跨会话模式,像人类睡眠时的大脑一样”消化”经验。

这两件事引爆了一个根本性问题:

Agent 的记忆,究竟应该从”说了什么”(会话历史)还是”做了什么”(执行轨迹)中提取?两条路线是互补,还是终将殊途?

这不是一个纯技术问题。当 49 万+的 Agent Skills 正在全球生态中爆炸式增长(Anthropic 维护的 Agent Skills 开放标准、AWS Agent Toolkit 发布 40+ 生产级技能、高德 SkillClaw 开源集体技能演化框架……),记忆与技能的耦合方式将决定 Agent 是”临时工”还是”老师傅”。

📌 核心数据

截至 Q1 2026,全球公开 Agent Skills 数量突破 490,000。Anthropic Agent Skills 标准被 Claude Code、Cursor、Codex、Gemini CLI 等 30+ 平台采用。AWS Agent Toolkit 首发即发布 40+ 技能,覆盖 IaC、存储、分析、Serverless 等场景。

本文将深入这场记忆范式之争,解剖两条技术路线各自的假设、局限与野心,并揭示一个被大多数人忽略的第三条路。


二、Anthropic Dreaming:会话记忆的自省范式

2.1 核心机制

Dreaming 的逻辑非常直觉:Agent 在每个会话中都在产生记忆,但人类大脑不会翻聊天记录来学习——它会在睡眠中整理。

技术实现上,Dreaming 是一个异步调度任务,输入是:

  1. 一个已有的 Memory Store
  2. 最多 100 个历史会话 Transcript

输出是一个全新的、独立的 Memory Store,其中:

  • 重复条目被合并
  • 过时/矛盾记录被替换为最新值
  • 跨会话反复出现的模式被提取为结构化洞察

原始 Memory Store 不会被修改——开发者可以审查、比较、丢弃输出后再决定是否上线。

2.2 它解决了什么问题

传统的 Agent 会话记忆面临三个致命痛点:

痛点 Dreaming 的解法
记忆膨胀 会话历史线性增长,上下文窗口溢出 → 只将高信号内容写入 Memory Store,原始 transcript 不变
垃圾堆积 一次性调试信息、过时偏好充斥记忆 → 定期回顾 → 合并重复 → 淘汰矛盾项
单会话盲区 Agent 无法意识到自己反复犯同一个错 → 跨 100 个会话检测模式 → “你在这 12 次中都犯了同类错误”

2.3 关键隐喻

Anthropic 用了一个精妙的隐喻:

Memory 是写日记,Dreaming 是整理日记。

  • Memory(2026年4月已 Public Beta):实时记录,”今天客户说想要蓝色按钮”
  • Dreaming(Research Preview):周回顾,”过去三周五个客户都提到了按钮颜色偏好,需要建立颜色偏好规则”

2.4 局限与风险

但这条路线有一个根本性缺陷:Dreaming 只消化 Agent “说过的话”,不消化 Agent “做过的事”。

当 Agent 执行了以下操作:

执行轨迹(不可见)1. 调用 search_api(“Q2 revenue”) → 返回表格 A 2. 基于表格 A 调用 generate_report() → 生成报告 B 3. 将报告 B 上传到 S3 存储桶 → success 4. 发送 Slack 通知给 CFO → delivered

Dreaming 能从对话 transcript 中知道”生成了一个报告”,但无法知道

  • search_api 的查询参数和返回结构
  • generate_report 的内部逻辑链
  • S3 上传的具体路径和文件格式
  • Slack 通知的精确内容和接收人

这些执行细节——正是 Agent 技能(Skills)产生和优化的地方——对 Dreaming 来说是不可见的黑箱。
这引出了一个尖锐的问题:如果记忆只建在会话文本上,那技能迭代所需的”执行反馈”从哪来?


三、Memori Labs:执行记忆的结构化革命

3.1 核心机制

Memori 的出发点与 Dreaming 截然不同。它不从”Agent 说了什么”开始,而是从“Agent 做了什么”开始。

其 Advanced Augmentation 管线将 Agent 的完整执行轨迹——包括:

  • 每一条用户消息
  • 每一个工具调用及其参数
  • 每一个工具返回结果
  • Agent 在每个决策点的推理过程
  • 最终输出

——通过一个全自动的离线管线,压缩为两种结构化资产:

结构化资产 描述 示例
Semantic Triples
语义三元组
(subject, predicate, object) 格式的原子事实 (user_x, prefers_date_format, “DD/MM/YYYY”)
Conversation Summaries
会话摘要
保留叙事流的高层级概述,与三元组双向链接 “客户偏好讨论 → 确认格式 → 写入个人配置”

3.2 LoCoMo Benchmark 的统治级表现

在专门为多会话长程记忆设计的 LoCoMo benchmark 上,Memori 的成绩具有统计学意义上的碾压性

方法 Multi-Hop Temporal Open-Domain Single-Hop Overall
Full Context(理论天花板) 88.53 77.70 71.88 92.70 87.52
✅ Memori 81.95
Zep 79.09
LangMem 78.05
Mem0 62.47
🔑 关键数字

81.95% 准确率,距离 Full Context 天花板仅差 5.57 个百分点 —— 每个查询仅需 1,294 tokens,仅为全量上下文的 4.97%。对于每天处理 1000 次查询的 Agent,推理成本约为全上下文方案的 1/20

3.3 它解决了 Dreaming 解决不了的问题

Memori 天然能捕获执行层面的记忆

  • 工具调用模式:”当用户问 Q2 收入时,Agent 总会先调用 search_api 再调用 format_table”
  • 参数偏好:”Agent 在调用 send_email 时总是 CC 给 finance-team@company.com”
  • 失败模式:”API 超时发生在使用 region=APAC 且 timeout<30s 时”
  • 决策逻辑链:”Agent 在数据缺失时倾向于使用上一个月数据而非报错”

这些信息不存在于任何会话 transcript 中——它们只存在于执行轨迹(execution trace)里。

3.4 局限与风险

Memori 的软肋在于:

  1. 无自主进化能力:它是一个”被动记录器”,结构化存储执行轨迹,但不决定”哪些行为模式值得提炼为可复用技能”
  2. 无跨会话模式发现:它能精确回忆”上周三那次调用”,但不主动告诉你”你最近十次都在用同样低效的查询模式”
  3. 依赖外部触发:记忆结构化在离线管线中完成,不参与实时推理循环

本质上,Memori 是一台高精度的记忆”打印机”——但它不决定该印什么。


四、Skills:连接记忆与行为的催化剂

4.1 为什么 Skills 是第三维度

当我们在讨论记忆时,实际上遗漏了一个关键角色——Skills(技能)

  • Memory(记忆):保存过去发生过的事实
  • Skills(技能):编码可复用的行为模式,指导未来的行动

两者互相增强,共同构成 Agent 的”经验体系”。

4.2 两条路线对 Skills 的不同态度

Anthropic Dreaming 的隐含假设:Skills 会从整理好的记忆中”自然涌现”。

Dreaming 通过回顾多个会话,发现”Agent 总是先做 X 再做 Y”,这种模式可以被提炼为一个技能。但截至目前,Dreaming 本身不生成 Skills 文件,它只更新 Memory Store。Skills 的创建仍需开发者手动编写 SKILL.md。

Memori 的隐含假设:Skills 应该从结构化的执行轨迹中自动提取。

Memori 的 semantic triples 天然可以映射到技能描述。但 Memori 当前的版本也尚未自动化这一步——它提供了高质量的结构化数据,但如何将这些数据转化为可安装的 Skills,仍是一个开放问题。

4.3 真正激进的先行者

EvoSkill(Sentient AGI,692⭐)和 SkillClaw(高德 AMAP-ML,1,242⭐)实际上指向了同一条路径——记忆的终极形态是可执行的技能,而技能的进化需要持续的记忆输入

  • EvoSkill:从失败轨迹中自动发现并合成可复用技能,5 阶段进化循环(Base Agent → Proposer → Generator → Evaluator → Frontier)
  • SkillClaw零干预自动进化,从真实 Agent 会话中自动提炼 SKILL.md,自动去重和优化,支持跨 Agent/跨设备/跨团队的技能共享

五、核心冲突:三条根本分歧

5.1 分歧一:记忆的原材料是什么?

Anthropic Dreaming Memori Labs
原材料 会话 transcript(人类可读文本) 执行轨迹(tool calls + results)
信息密度 低(大量客套、重复、省略) 高(每个字段都有结构化含义)
可操作性 弱(知道”聊了什么”,但不知”做了什么决定”) 强(知道”在什么条件下调了什么工具”)
成本 极低(只处理已有文本) 较高(需拦截和存储完整执行数据)

核心冲突:Dreaming 认为”语言本身就是记忆”,Memori 认为”行为才是记忆”。前者是人类中心主义的,后者是机器中心主义的。

5.2 分歧二:谁来整理记忆?

Anthropic Dreaming Memori Labs
整理主体 LLM(用大模型推理来总结) 管线(确定性 ETL 流程)
可控性 低(黑盒 LLM 的判断可能不符合预期) 高(每一步提取逻辑可审计)
智能度 高(LLM 能发现微妙的跨会话模式) 中(依赖预定义的提取规则)
成本可预测性 低(token 消耗随会话数线性增长) 高(固定成本)

核心冲突:Anthropic 押注 LLM 可以成为自己的记忆管家,Memori 则认为记忆管理应该是一个确定性的数据工程问题。

5.3 分歧三:记忆的目的是什么?

Anthropic Dreaming Memori Labs
短期目标 让下一次对话更聪明 让下一次执行更准确
长期愿景 Agent 的自我意识进化 Agent 的高效工程化部署
衡量标准 “Agent 是否变得更聪明了?” “Agent 是否犯更少的错了?”
适用场景 开放域、长期陪伴型 Agent 生产域、高频任务型 Agent

核心冲突:Dreaming 追求的是”智能涌现”,Memori 追求的是”执行效率”。一个想造一个有灵魂的助手,一个想造一个靠谱的工人。


六、超越冲突:Experience Compression Spectrum 的统一框架

2026年4月的重磅论文 “Experience Compression Spectrum”(arXiv:2604.15877) 提出了一个统一视角:

记忆(Memory)、技能(Skills)、规则(Rules)不是三个不同的问题,而是同一种操作——将经验压缩为可复用知识——在不同压缩比下的产物。

层级 压缩比 产物 当前代表
L1 — Episodic
情节记忆
5-20× 结构化事件记录 Memori 的 semantic triples、Dreaming 的 Memory Store
L2 — Procedural
程序记忆/技能
50-500× 可复用的行为模式 EvoSkill 生成的 SKILL.md、SkillClaw 自动提炼的技能
L3 — Declarative
陈述性知识/规则
1,000×+ 抽象决策原则 Agent 自我总结的最佳实践

6.1 真正的架构应该是”全频谱”的

L3 规则沉淀
Agent 自我总结
最佳实践
⬆ 渐进式压缩
L2 技能提取
EvoSkill
SkillClaw
手动编写 Skills
⬆ 结构化提取
L1 情节记忆
Dreaming(文本摘要)
Memori(结构提取)
⬆ 原始数据
执行轨迹与会话 Transcript

当前没有任何一个系统打通了全链路。Dreaming 停在 L1,Memori 停在 L1,EvoSkill 从 L1 直接跳到 L2(跳过结构化的 L1 存储),SkillClaw 试图同时做 L1→L2 但仍以技能生成为主要目标。


七、实战分析:两个 Agent 的成长路径对比

场景:一个负责处理客户退款的 Agent

第一天

客户 A 申请退款,Agent 查询订单→确认状态→处理退款→发送通知。

  • Dreaming 路线:在 Memory Store 中记录”今天处理了客户 A 的退款申请,订单号 #12345,原因是产品质量问题”
  • Memori 路线:在 triple store 中记录 (订单 #12345, refund_reason, 产品质量问题)(订单 #12345, refund_process, [查询→确认→退款→通知])(订单 #12345, resolution_time, 45秒)

第三十天

已处理 200 个退款案例。

  • Dreaming 路线:Agent 回顾过去 30 天的记忆,发现”产品质量退款占总量的 60%,且在这些案例中多查询了一次不必要的质检报告”。更新记忆:”产品质量退款通常不需要质检报告查询”。
  • Memori 路线:Memori 的离线管线发现 (查询质检报告, before, 发起退款) 在 120 个案例中出现,但其中 115 个案例中质检报告字段为空,生成 triple:(refund_workflow, optimization, "跳过质检查询可节省30%时间")

第九十天

  • Dreaming 路线:Agent 的记忆变得更有结构性,但它仍然需要每次重新执行工作流——只是执行时”更聪明”了。它没有生成一个”技能文件”。
  • Memori 路线:Memori 积累的 structured triples 可以被 EvoSkill 或 SkillClaw 自动生成一个优化后的退款处理 Skill,以后的 Agent 甚至其他团队的 Agent 都可以直接安装使用。

核心差异:Dreaming 让同一个 Agent 变得越来越好(纵向深化),Memori + Skills 让整个 Agent 生态变得越来越好(横向扩展)。


八、行业信号:巨头们的选择

厂商/项目 记忆策略 技能策略 路线倾向
Anthropic Dreaming(会话自省) Agent Skills 标准(被动) 会话记忆 → 智能涌现
AWS Agent Toolkit + MCP Server 40+ 生产级技能 技能优先,记忆让位
Google ADK 上下文管理优化 ADK Skills(实验中) 等待观察
Microsoft A2A 协议 Agent Framework + Skills 框架先行
高德 SkillClaw 从执行轨迹提取 自动技能生成 执行记忆 → 自动技能
Memori Labs 结构化执行记忆 暂未涉及 记忆基础设施

值得关注的信号:

  • Anthropic 的 Alex Albert 公开表示:”Dreaming 的本质是模型在创造技能——它从经验中总结出可复用的行为模式”。这意味着 Anthropic 可能正在计划让 Dreaming 自动生成 SKILL.md 文件,从 L1 直接跨越到 L2。
  • OpenClaw 同时集成了 Memori 插件和 SkillClaw 进化引擎,试图在单一平台上打通”记忆 → 技能”的完整链路,可能是最接近全频谱架构的实践。

九、构建持续进化 Agent 的设计原则

原则一:不在会话记忆和执行记忆之间做选择

两者捕捉不同维度的信息。

  • 会话记忆擅长捕获意图和决策理由(”为什么这么做”)
  • 执行记忆擅长捕获行为和结果(”做了什么,效果如何”)

最佳实践是双轨并行,用不同存储策略处理不同类型的数据。

原则二:从 Day 1 就设计”记忆 → 技能”的转化通道

不要等到积累了大量记忆才开始考虑如何提炼技能。在架构设计阶段预留接口,让记忆管线能输出结构化的”行为模式描述”,直接转化为 SKILL.md 草稿。

原则三:接受渐进式进化,不要追求一步到位

  1. Phase 1:用 Memori 或类似方案实现结构化执行记忆
  2. Phase 2:引入 EvoSkill 或 SkillClaw 实现技能的自动生成和优化
  3. Phase 3:用 Dreaming 或类似方案实现跨会话的自我反思
  4. Phase 4:打通全链路,实现”执行 → 记忆 → 技能 → 进化”的闭环

原则四:警惕”记忆陷阱”

三条筛选标准:

  1. 频率:这个模式出现过 3 次以上吗?
  2. 价值:这个记忆能显著提高成功率或降低成本吗?
  3. 时效性:这个记忆在未来 30 天内还会被用到吗?

好的记忆系统不在于记住多少,而在于忘掉什么。


十、结论:Agent 的”成人礼”

2026年的 AI Agent 正站在一个分水岭上。

过去两年,我们教会了 Agent “如何做事”(Skills)。现在,我们正在教会它们“如何从做事中学习”(Memory + Dreaming)。

Anthropic Dreaming 代表了一条自上而下的路线:相信大模型有足够的智能来整理自己的经验。Memori Labs 代表了一条自下而上的路线:相信只要把数据结构化得足够好,模式和洞察会自然浮现。

两条路线都有道理,也都有盲区。

真正的突破点不在于选择哪条路,而在于设计一个能同时走两条路的架构——让执行记忆为技能进化提供原材料,让会话记忆为决策优化提供上下文,让技能反过来提升执行的质量,形成一个螺旋上升的飞轮。

🎯 终极图景

当 Agent 不仅能做事,还能记住自己做过什么,并从中提炼出”做事的方法”时——它就不再是一个工具,而是一个会成长的数字同事。
这,就是 Agent Memory + Skills 双轮驱动的终极图景。

参考: LoCoMo Benchmark 数据来自 Memori Labs 官方文档;Dreaming 技术细节来自 Anthropic Platform Docs;Experience Compression Spectrum 论文 arXiv:2604.15877;Agent Skills 生态数据来自 byteiota.com 2026 报告及 GitHub 统计。

u2

Related Posts

  • AI
  • 5月 10, 2026
  • 32 views
基于大模型的测试用例生成解决方案

融合测试用例技能系统与多代理协作的完整技术方案

Read more

  • AI
  • 5月 2, 2026
  • 369 views
从0到1搭建一个AI Token中转站:技术架构与实战指南

AI Token中转站(API Relay/Proxy)是连接开发者、企业与全球AI模型的中间网关服务。它在用户与OpenAI、Claude、DeepSeek等大模型之间搭建中间件,将异构模型接口统一封装,提供网络加速、多模型路由、统一计费、风控监控等能力。

Read more

发表回复

You Missed

Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent

  • u2
  • 5月 11, 2026
  • 13 views
Agent Memory + Skills 双轮驱动 Memori Labs × Anthropic Dreaming 执行记忆 vs 会话记忆,如何构建持续进化的 Agent

基于大模型的测试用例生成解决方案

  • u2
  • 5月 10, 2026
  • 32 views

从0到1搭建一个AI Token中转站:技术架构与实战指南

  • u2
  • 5月 2, 2026
  • 369 views

本地AI时代来临:Ollama + MemPalace工作流深度指南

  • u2
  • 4月 21, 2026
  • 202 views

Raycast深度解析:这个让Mac效率重装升级的东西,到底值不值?

  • u2
  • 4月 14, 2026
  • 142 views

GitHub 25K+星标!Onyx:开源可自托管的企业级AI聊天与RAG平台

  • u2
  • 4月 8, 2026
  • 305 views