上周,一条新闻在AI行业的小圈子里流传:某头部模型的最新版本在内部评测中出现了诡异的退化——它在一些曾经轻松胜任的任务上表现出「智力下降」,尤其是在处理罕见病诊断和少数民族语言翻译时,输出质量断崖式下跌。
排查结果指向一个越来越难以回避的问题:训练数据被污染了。污染源不是黑客攻击,而是AI自己。
这个现象有一个学术名称——模型坍塌(Model Collapse)。通俗地说就是:当AI模型用AI生成的数据训练后代模型,每一代的多样性和准确性都在衰减,若干代之后,系统会产生与现实脱节的输出。
最早系统描述这个现象的牛津大学团队在2024年的《自然》论文中做了一个实验:用AI生成的关于中世纪建筑的文本训练下一代模型,不到10次迭代,输出就变成了关于杰克兔的无意义讨论。
这不是科幻。这是2026年正在发生的事。
一场无声的「自噬」
模型坍塌有许多别名:AI近亲繁殖、AI同类相食、MAD(Model Autophagy Disorder,模型自噬紊乱)——每个名字背后都是同一个生理学隐喻:一个系统如果只吃自己排出的废物,迟早会中毒。
这个过程分两个阶段:
早期坍塌。模型开始丢失分布尾部的稀有但重要的知识。它可能仍然擅长写营销文案,但不再能准确回答「某种罕见病的鉴别诊断」。典型用户难以察觉退化,因为标准评测基准测不到这些边缘案例。
晚期坍塌。模型彻底丧失对真实世界分布的理解能力。输出变得同质化、刻板化,甚至滑向无意义的胡言乱语。到了这个阶段,修复已经极其困难——因为你不知道哪些参数被污染了。
问题在于,你很难从输出中判断模型是否处于早期坍塌。一个正在退化的模型看起来可能「还不错」,甚至在常见任务上表现稳定。退化往往首先体现在那些基准测试不覆盖的能力上——等你在生产环境中发现时,损害已经扩散。
数据墙已经撞上了
为什么行业明知风险,却在加速走向自噬?答案很简单:高质量的人类数据不够用了。
Epoch AI的研究估算,高质量语言数据将在2026至2030年间被完全耗尽。这里说的「耗尽」不是指「更难以获取」,而是指「我们已经用完了所有可用的」。
OpenAI的GPT-4训练集包含约13万亿tokens,吞噬了互联网上绝大部分可用的高质量文本。下一代模型需要更大的数据集才能实现性能提升——但人类的文字产出总量是有限的,增长是线性的,而模型的需求是指数级的。
合成数据(AI自己生成的数据)于是成了唯一的出路。据估算,2024至2025年发布的新模型中,合成数据已占训练集的10%至30%。部分企业与垂类模型,这个比例更高。
但这批数据已经在引发问题。上海交通大学2026年3月的研究证实,AI训练中使用合成数据会导致模型性能随合成数据比例增加而下降——这是一条下滑曲线,不是一条平线。
为什么用AI训练AI会越练越差?
理解这个问题,需要回到大模型的工作原理。
大语言模型本质上是对训练数据分布的概率拟合。当训练数据全部来自人类时,模型学习的是真实世界的信号分布——包括各种知识、表达方式、思维角度的真实多样性。
当训练数据中混入AI生成的内容,问题就出现了。AI生成的内容本身就存在偏差——它倾向于输出最常见、最安全、最「平均」的回答。当这些内容被喂给下一代模型时,模型学到的不是真实世界的分布,而是上一代模型对真实世界的简化映射。
每一代都在做简化。就像复印一张纸——每一张复印件都比上一张更模糊一些,丢失一些细节、一些灰度、一些边缘信息。第10次复印可能还能看出轮廓,第50次之后就是一摊墨渍。
英国King’s College London在2026年5月发表于《物理评论快报》的研究从数学上证明了这一点:在一类被称为Exponential Family的统计模型中,仅用自己产生的数据闭环训练,模型坍塌是必然发生的。
但这项研究也给出了一个意外的解法:只需要一个来自外部世界的真实数据点,就能阻止坍塌的发生——即使面对的是无限多的机器生成数据。这个发现的意义在于:对抗数据污染的关键可能不是拒绝合成数据,而是确保每一代训练中都保留足够比例的、来自真实世界的人类数据。
行业真正的麻烦:数据溯源几乎不可能
比模型坍塌更棘手的是数据溯源问题。
当AI生成的内容被发布到互联网上(AI生成的新闻报道、产品评论、技术博客、学术摘要),它会和人类生成的内容混在一起,被网络爬虫抓取,进入下一轮训练集。截至2026年,互联网上AI生成内容的占比已经高到无法准确估算——一些热门领域(如产品评论、基础科普)超过60%的内容可能已是AI生成。
这意味着:哪怕一个模型团队承诺「只用人类高质量数据训练」,他们也几乎无法保证训练集中没有混入AI生成内容。互联网已经不再是一个干净的人类知识库。
更隐蔽的问题是数据污染的连锁效应。当一个使用了合成数据的模型发布后,它的输出会进一步污染下游模型的数据集。这是一个正反馈循环:越多的AI内容产生,下一代的训练数据就越脏;训练数据越脏,模型输出质量就越差;质量越差的输出被发布出去,进一步污染数据池。
这就是为什么一些研究者认为,模型坍塌的真正影响可能在2027至2028年集中显现——届时多代叠加污染将达到临界点。
好消息是,行业已经开始意识到问题
2026年上半年,学术界和工业界都出现了一些积极信号。
学术层面,前述King’s College London的研究提供了一个数学上可证明的预防方案:在每一轮训练中混入真实人类数据。哪怕只有一个数据点,理论上就能阻止坍塌。虽然这一结论目前仅在简化模型中得到验证,但导向了一个重要的实践方向——在合成数据的洪流中,保留真实数据的「锚点」。
2026年3月,上海交通大学团队提出的「标记级编辑」方法也展示了一条可行路径:通过智能替换高概率token来优化合成数据质量,从源头上延缓退化。
工业界也开始行动。一些头部模型厂商在内部建立了数据溯源系统,对训练数据中「AI生成」的占比设置硬性上限。少数公司在合成数据生成环节引入了质量过滤器,要求合成数据必须先通过真实性校验才能进入训练管线。
监管层面,2026年6月生效的《人工智能生成合成内容标识办法》要求AI生成内容必须明确标注。虽然这一政策的主要目标是消费者知情权,但它客观上也为数据溯源提供了基础设施——有了标注,训练数据的「纯度」才有可能被精确计量。
一个没有结论的结尾
模型坍塌这件事,目前还没有定论。
一部分研究者认为它是AI发展的根本性威胁——高质量人类数据的耗尽将从根本上限制模型能力的上限,合成数据的循环训练会让模型越来越「蠢」。持这一观点的人倾向于呼吁行业放慢节奏、投入更多资源采集和标定人类数据。
另一部分研究者(包括今年发表新模型的研究团队)则认为这个担忧被夸大了。他们的论据是:真实世界中数据是持续累积的——而不是每年删掉旧数据重新训练。只要合成数据与现实世界数据一起积累,模型坍塌不会发生,或者至少不会在可预见的未来成为硬约束。
两种观点都有数据支撑。与其押注哪一派正确,不如关注一个更现实的问题:
当整个互联网的知识产出越来越依靠AI,人类还有能力持续生产「干净的」数据吗?
这个问题比模型坍塌本身更值得焦虑。因为即使坍塌可以被技术手段延缓或规避,一个「AI生产→AI消费→AI训练」的闭环正在形成,人类在其间的角色正在从知识的创造者退化为知识的消费者。这不是技术问题,这是认知生态问题。
2026年的AI行业,模型的参数在涨、算力在涨、估值在涨、融资金额在涨——唯一在下降的,可能是数据中人类信号的比例。这个趋势如果持续,我们面对的可能不只是模型坍塌,而是某种意义上的知识基线的坍塌。
到那时候,一个没有见过真正的人类文字、只读过AI写的摘要的AI,还能被称为「智能」吗?
