引言:从AGI到RSI,AI叙事的转向
2026年5月,AI圈的讨论风向悄然转变。过去十年,AGI(通用人工智能)一直是行业追逐的北极星——OpenAI、DeepMind投入数十亿美元,试图打造能完成任何人类任务的通用智能。然而,随着大语言模型能力撞墙、推理成本飙升,行业开始反思:AGI或许不是一个合理的目标。
于是,一个更具体、更可操作的概念进入视野:RSI(Recursive Self-Improvement,递归自我改进)。
TechCrunch在5月28日报道,”recursion”已成为AI圈最新热词。两家初创公司直接以”Recursive”命名,更多公司在路线图中频繁提及RSI。正如AGI曾是AI领域的终极愿景,RSI正在成为下一个被热议的”三字母缩写”——尽管人们对其定义仍存分歧。
一、什么是RSI?
定义
RSI指的是一种AI系统能够持续自我升级的能力。一旦AI系统能够比人类更好地管理升级周期,这个过程就会形成一个闭环,其限制仅在于它们能够访问的计算资源,而人类不再必要甚至不再有帮助。
用更通俗的话说:让AI用自己来改进自己。
历史渊源
这个概念最早可追溯到1965年。英国数学家I.J. Good写道:”超智能机器能够设计出更好的机器;那么毫无疑问会出现’智能爆炸’,人类的智能将被远远抛在后面。”此后,RSI一直是AI研究者既渴望又恐惧的目标。
RSI的三个层次
根据IEEE Spectrum的分析,RSI存在于一个光谱上:
- 最底层:AI帮助工程师编写更好的训练代码(当前阶段)
- 中间层:AI系统能够自主发现自身缺陷并设计实验修正
- 最顶层:自主系统在没有人类参与的情况下重新设计自己(真正的RSI)
目前,整个行业都处于中间层的探索阶段。
二、2026年的RSI实践:从理论到现实
Andrej Karpathy的Auto-Research
2026年3月,OpenAI联合创始人、前特斯拉AI主管Andrej Karpathy开源了一个名为Auto-Research的项目,成为RSI最清晰的实践案例。
核心设计极其简洁:
- 一个AI Agent
- 一个允许修改的文件(train.py)
- 一个优化指标(val_bpb)
- 固定的实验时间预算(5分钟)
- 永不停止的循环
实验结果令人震惊:
- 约700次自主实验
- 发现20个可叠加的改进
- 训练速度提升11%
- 全部在单个GPU上完成,一夜之间
Karpathy在播客中坦言:”我花了两个月手动调优这个模型,结果AI一夜之间找到了我没想到的优化。”他发现模型忘记了value embeddings的权重衰减,Adam优化器的beta参数也没有充分调优——这些是二十年经验的研究者都忽略的细节。
更多实践案例
Google DeepMind的AlphaEvolve
- 一种用于科学和算法发现的编码Agent
- 发现了更快的矩阵乘法算法:4×4复数矩阵从49次标量乘法降到48次
- 这是自1969年Strassen算法以来的首次改进
Darwin Gödel Machine(DGM)
- 来自英属哥伦比亚大学和Sakana AI的研究
- 使用进化算法改进基于LLM的编码Agent
- 关键突破:Agent可以修改自己的代码,并且能够改进这种自我修改的能力
MiniMax M2.7
- 在100多次迭代中自主更新了自己的强化学习工具
- 实现了30%的性能提升
- 不仅运行训练循环,还修改了循环本身
Anthropic的Claude Code
- 据称编写了70-90%用于训练新Claude模型的代码
- 这个工具正在构建构建下一个版本工具的东西
三、主要玩家的RSI路线图
Recursive Superintelligence公司
2026年5月,AI研究者Richard Socher(You.com创始人、ImageNet论文作者)创立了Recursive Superintelligence公司,直接以RSI为目标:
- 融资6.5亿美元,估值46.5亿美元
- 团队成员包括Peter Norvig、Tim Rocktäschel等顶尖研究者
- 目标:构建真正递归的、自我改进的超级智能
Socher在采访中明确区分了RSI与简单的AI辅助研究:
“很多人以为做auto-research就是RSI。你可以让AI改进某个东西,但这不是递归自我改进,这只是改进。我们要构建的是整个创意、实现和验证研究想法的过程完全自动化。”
Jack Clark的60%预测
Anthropic联合创始人Jack Clark在5月4日发帖,给出了一个令人不安的预测:
“到2028年底,无人类参与的AI研发发生的概率是60%。”
支撑这一判断的证据包括:
- AI系统已经能自动化AI工程的绝大部分
- 自动微调模型带来的性能提升已达到人类微调成果的50%
- Claude Mythos Preview已实现52倍的训练提速
- 多条能力曲线都在向右上方飞,没有任何减速迹象
Clark特别指出,他对2027年的概率估计是30%,而2028年跳升到60%,这暗示2027年底前后可能出现一次能力跃迁。
其他重要声音
Elon Musk:”奇点不是未来,是现在。”他认为当前的大型语言模型已经处于RSI的过程中。
Dario Amodei(Anthropic CEO):RSI可能在2027年初就会发生,AI可能在未来1-5年内取代半数初级白领工作。
Sundar Pichai(Google CEO):相对谨慎,”这是一个连续体,我们都在取得进步。但RSI所描述的那种加速代表着另一个层次,我们还没到那一步。”
Jeff Clune(英属哥伦比亚大学):”我们距离递归自我改进系统已经非常近了。RSI将迅速改变科学、技术以及社会和文化的各个方面。”
四、RSI的技术挑战
评估标准缺失
如何量化一次自我改进是否成功?现有基准测试是为固定模型设计的,无法衡量动态迭代后的能力跃迁。ICLR 2026专门举办了RSI研讨会,试图建立统一的评估框架。
计算成本爆炸
每次递归改进需要重新训练或蒸馏整个模型。按照当前的算力价格,一次完整的RSI循环可能消耗数百万美元电费。Karpathy的Auto-Research之所以有效,部分原因是它只在小模型上运行——但真正的突破需要在前沿模型上验证。
“自指悖论”
这是RSI面临的最根本挑战:如果当前模型不够聪明,它如何知道自己需要改进哪些部分?如果它足够聪明,又何必需要RSI?
正如Aki Ranin在Substack文章中指出的:”软件主要是工程,而AI研究是理论加工程的等量混合。这就是为什么很多顶尖AI研究者来自学术界和物理学领域,而不是顶级的FAANG软件团队。”
从”有监督”到”自主”的鸿沟
目前所有的RSI都是受监督的:人类指导目标、人类审查结果、人类保持终止开关。OpenAI明确澄清,Codex 5.3的自我创造”与AI模型完全自主地构建新模型相差甚远”。
Nathan Lambert(Allen Institute for AI)提出了”有损自我改进(LSI)”的概念:随着摩擦增加,改进的飞轮会减速。大型AI系统越来越复杂,AI研究者的工作将是管理这种复杂性,而不是优化系统的各个部分。
五、RSI vs AGI:哪个更重要?
一个有趣的分歧
一个值得关注的观点是:RSI可能在AGI之前实现,也可能在AGI之后很久都无法实现。
Aki Ranin的分析很有启发性:
“即使我们明天看到Anthropic用Mythos模型设计其后继者的新闻,也不意味着我们会从那里’foom’到超级智能。RSI过程本身可能因为多种原因而进入平台期。”
华盛顿大学教授Pedro Domingos的质疑也很尖锐:”从LISP在50年代发明以来,AI就能构建自己了。问题在于,这个过程究竟能带来递增回报还是递减回报——而目前没有任何证据支持前者。”
METR的三个里程碑
METR的Ajeya Cotra提出了RSI路径上的三个关键节点:
- 充分性(Adequacy):系统能够在没有人类的情况下进行研究——即使产出的研究不如人类高效
- 对等(Parity):AI-only系统与人类-only系统的研究能力相当
- ** supremacy**:AI-only系统超越人类与AI协作的系统
Cotra认为,AI已经非常接近”充分性”门槛,这可能在未来一两年内实现。一旦达到”对等”,AI研究的进度将”大规模加速”,在一年内达到”supremacy”。
六、RSI的风险与治理
对齐问题的复利效应
Jack Clark指出了一个令人担忧的数学事实:如果对齐技术的准确率是99.9%,在递归迭代50代后,准确率会跌到95.1%;迭代500代后,跌到60.5%。
这意味着,即使每一代的改进都是微小的,对齐问题也会在递归过程中被放大。
Anthropic的准备
Anthropic在2026年3月宣布成立The Anthropic Institute时,官方声明中写道:
“如果AI系统的递归自我改进确实开始发生,那么世界上谁应该被告知,以及这些系统应该如何治理?”
这表明,即使是最激进的AI实验室,也在认真思考RSI带来的治理挑战。
学术界的呼吁
一些研究者呼吁RSI研究应该受到更严格的监管。有人甚至认为RSI应该被完全禁止——尽管这与AI暂停一样不太可能实现。更务实的建议是:至少应该要求公开披露RSI研究。
七、RSI对未来的意味着什么?
时间线预测
综合各方观点,一个合理的时间线预测是:
- 2026年:窄RSI成为标准基础设施,Karpathy风格的循环在每个前沿实验室扩展
- 2027年:在非前沿模型上出现概念验证,模型端到端训练出自己的后继者
- 2028年:前沿模型实现完全自动化AI研发的概率约60%
- 2029-2030年:如果RSI真的实现,智能爆炸风险开始出现
对企业
- 研发效率:传统研发过程需要大量人力和时间,RSI将大幅缩短产品开发周期
- 组织变革:未来可能出现1-5人组成的小型公司,凭借强大AI系统打败数千员工的大企业
- 竞争格局:率先理解并应用RSI技术的企业将占据绝对优势
对人类
Jeff Clune的观点颇具代表性:
“如果一台机器取代我成为AI科学家,我会很难过——这是一个让我兴奋的角色。但回报可能是值得的。’我会放弃我的爱好来治愈癌症。'”
但他也强调,人类将逐渐从执行者转变为监督者:
- 首先,花更少时间在低级任务上,变得更像教授或团队负责人
- 然后,更像项目官员或CEO,设定更广泛的研究议程
- 最后,进行监督——他希望人类永远不会放弃这个角色
所以:RSI是新的AGI,但可能更近
RSI正在成为AI圈的新热词,就像AGI曾经那样。但两者有一个关键区别:RSI更具体、更可操作、更容易验证。
我们不需要等待一个”万能大脑”的出现。我们只需要看到一个AI系统能够在没有人类帮助的情况下,持续改进自己的性能——哪怕只是在小规模上。
Karpathy的Auto-Research已经证明了这在原理上是可行的。现在的问题是:这个闭环能扩展到多大?能走多快?
正如TechCrunch总结的那样:”就像AGI一样,RSI还没有到来。但与AGI不同的是,我们可能不需要等太久。”
对于普通人来说,最务实的建议或许是:会用AI的人将淘汰不会用AI的人。 这个窗口现在还开着,先进去的人已经在建立优势了。