2026年5月22日,Anthropic发布了Project Glasswing的阶段性报告,公布了一组足以改写网络安全规则的数据。在短短一个月内,这个由约50家机构组成的网络安全联盟,利用Anthropic尚未公开发布的Claude Mythos Preview模型,发现了超过1万个高危或严重级别的零日漏洞。
01 数据全景:一个月,一万个漏洞
Project Glasswing于2026年4月7日启动,创始合作伙伴包括Amazon Web Services、Apple、Broadcom、Cisco、CrowdStrike、Google、JPMorganChase、Linux基金会、Microsoft、NVIDIA和Palo Alto Networks。目标是在AI驱动的攻击能力扩散之前,抢先用AI加固关键软件基础设施。
一个月的成果:
| 指标 | 数据 |
|---|---|
| 合作伙伴发现的高危/严重漏洞总数 | 10,000+ |
| 扫描的开源项目数 | 1,000+ |
| 开源项目中的候选发现总数 | 23,019 |
| 其中预估高危/严重级别 | 6,202 |
| 独立审计后的真实阳性率 | 90.6% |
| 已向维护者披露的漏洞数 | 1,596(涉及281个项目) |
| 已完成修复的漏洞数 | 97 |
这些数字的含金量在于验证过程。Anthropic邀请了六家独立安全研究机构对1,752个高危/严重候选发现进行人工审计,结果90.6%被确认为真实漏洞(true positive),62.4%被确认为属实的高危或严重级别。在严重性评级方面,Mythos的评估与人类专家完全一致的比率为89%,相差不超过一级的比率达98%。
02 经典案例:AI发现了人类几十年没找到的漏洞
OpenBSD:存在27年的远程崩溃漏洞
OpenBSD以安全性优先著称,是全球安全最苛刻的操作系统之一,广泛用于防火墙和关键基础设施。Mythos Preview在其TCP SACK实现中发现了一个有符号整数溢出漏洞——这段代码自1998年起就存在。攻击者只需连接到目标机器即可远程崩溃系统。整个发现过程的开销不到50美元,完整攻击链的构建成本约2万美元。近三十年来,无数人类审计者和自动化测试工具都未能发现它。
FFmpeg:熬过500万次模糊测试的16年陈年漏洞
FFmpeg是全球使用最广泛的多媒体编解码库,嵌入在几乎所有视频处理应用、浏览器和流媒体平台中。Mythos在其H.264解码器中发现了一处越界写入漏洞——该漏洞自2003年引入代码库,2010年重构后暴露。自动化模糊测试工具在此代码路径上运行了超过500万次,从未触发过该漏洞。触发它需要精确构造一个包含65,536个切片的视频帧,以碰撞16位哨兵值——这是随机输入生成永远无法达到的边界条件。Mythos通过推理代码语义而非暴力枚举发现并利用了它。
FreeBSD:17年的无认证远程Root权限漏洞(CVE-2026-4747)
FreeBSD广泛应用于Netflix的内容分发网络、PlayStation等关键系统。Mythos在FreeBSD的NFS实现中自主发现了一个无需认证即可获取root权限的漏洞,并自主构建了一个20个gadget的ROP链来利用它。构建如此长度的ROP链,在此之前被认为是顶尖人类漏洞利用专家的能力上限。
Linux内核:自主串联多个漏洞实现权限提升
Mythos还自主发现并串联了Linux内核中的多个漏洞,实现了从普通用户到完全控制机器的权限提升——整个过程完全自主,无需人类干预。
wolfSSL:证书伪造漏洞(CVE-2026-5194)
Mythos在用于数十亿设备的开源密码学库wolfSSL中发现了一个可能导致攻击者伪造数字证书、冒充可信银行或邮件的漏洞,目前已修复。
03 瓶颈转移:从「找不到」到「修不完」
Anthropic在报告中写了一段话:
“Progress on software security used to be limited by how quickly we could find new vulnerabilities. Now it’s limited by how quickly we can verify, disclose, and patch.”
(软件安全的瓶颈曾经是我们发现漏洞的速度,现在是我们验证、披露和修复漏洞的速度。)
数据揭示了这一转移的残酷现实:
- 已向维护者披露了530个高危/严重漏洞
- 仅75个完成修复,65个发布了安全公告
- 另有827个已确认漏洞等待披露
- 平均每个高危/严重漏洞的修复时间为两周
- 部分开源维护者已请求Anthropic放慢披露节奏,因为需要更多时间设计补丁
AI发现一个漏洞的时间可能是几分钟到几小时,而人类修复它平均需要两周。在修复期间,系统处于暴露状态——而Mythos级别的漏洞利用能力已经开始扩散。
04 合作伙伴的实测反馈
Cloudflare在50多个自有仓库中发现了2,000个漏洞(其中400个高危/严重),称其假阳性率优于人类测试者。
Mozilla利用Mythos Preview在Firefox 150中发现了271个漏洞并完成修复,是此前使用Claude Opus 4.6测试Firefox 148时的10倍以上。
Palo Alto Networks最近一次更新发布的补丁数量是平时的5倍以上。
Microsoft表示其补丁数量「将继续变大一段时间」。
Oracle报告其漏洞发现和修复速度提升了数倍。
此外,英国AI安全研究所(AISI)确认Mythos Preview是首个成功完成其所有自主开发的网络攻击模拟演练(cyber range)的AI模型。这不是实验室环境中的简化演示,而是在真实、多阶段的攻击模拟中完整胜出。
05 经济账:漏洞发现成本断崖式下降
Mythos Preview真正具有颠覆性的不只是能力,还有成本结构。
| 漏洞 | 成本 | 对比 |
|---|---|---|
| OpenBSD 27年漏洞 | <$50/次 | 一顿晚餐的价格 |
| FFmpeg 16年漏洞 | ~$10,000 | 数百次运行的总成本 |
| Linux内核利用 | <$2,000 | 低于一台中端笔记本电脑 |
| 完整1,000次OpenBSD扫描 | ~$20,000 | 一场安全审计的零头 |
当零日漏洞的发现成本从「百万美元级专业团队数月攻坚」下降到「几十美元让AI跑一次」,整个安全行业的经济模型就被打破了。Anthropic为此项目投入了1亿美元的API额度补贴和400万美元的开源安全捐赠,足以说明问题的严重性。
目前Mythos Preview的API价格为$25/$125每百万输入/输出token,定价本身不追求利润最大化,而是确保关键开源项目能够覆盖到。
06 双刃剑:为什么Anthropic不公开发布
Claude Mythos Preview目前不对外公开发布。Anthropic明确表示,尚未有任何组织(包括它自己)开发出足够强大的防护措施来防止此类模型的滥用。
Mythos不仅能发现漏洞,还能自主构建完整可利用的攻击链。在ExploitBench和ExploitGym两个最新的学术基准测试中,Mythos Preview的得分显著领先于其他所有前沿模型。在智能合约利用测试中,Mythos成功利用的漏洞价值达3,500万美元,比次优模型高出75%。
Anthropic的Frontier Red Team测试发现,模型在发现漏洞后能够自主识别可利用的漏洞原语(exploit primitives),并将它们组合成完整的端到端攻击链。这意味着它可以找到漏洞,然后直接生成武器化利用代码——这是「强能力」和「强危险」之间的本质区别。
Anthropic警告Mythos级别的模型将在6-12个月内变得普遍可用。届时,漏洞利用开发所需的高度专业化技能将急剧贬值,变成一种商品化的能力。
当前过渡期存在一个「危险窗口」:AI能以空前的速度和规模发现漏洞,但防御体系的修复能力尚未跟上。在这个窗口关闭之前,每一行代码都可能成为攻击面。
07 行业启示与行动方向
第一,安全的瓶颈已从「发现」转向「修复」。
安全团队不能再以「我们没发现漏洞」作为理由。问题不再是「你的软件有没有漏洞」,而是「你的漏洞发现速度是否超过修复速度」。这要求组织重构补丁管理流程,从基于CVSS评分的被动响应转向基于实际可利用性的主动优先级排序。
第二,传统模糊测试的局限性已暴露无遗。
FFmpeg漏洞逃过500万次模糊测试的事实,从根本上质疑了传统安全测试方法的充分性。基于语义理解的AI代码审计不再是可选项,而是未来安全基础设施的必需品。
第三,防御需要体系化,不止是打补丁。
Cloudflare在Mythos测试报告中提出一个关键观点:单纯追求更快的补丁速度是不够的。当攻击时间线从月压缩到天甚至小时,安全架构必须转向使漏洞更难被利用的设计——纵深防御、最小权限、运行时防护、快速回滚能力。
第四,开源维护者需要支援,而非只有压力。
开源维护者正在被低质量的AI生成漏洞报告和高质量的Mythos发现同时淹没。行业需要建立更有效的协调披露机制,为关键开源项目提供安全审计预算,以及探索AI辅助自动补丁生成(Claude Opus 4.7已在三周内帮助修复2,100个漏洞)。
写在最后
Project Glasswing是一个重要的历史节点。它首次以无可辩驳的数据证明了AI在网络安全领域的应用已经越过了一个分水岭。一个模型在不到50美元的成本下发现了人类27年未能发现的漏洞,一个月内找到了超过一万个高危漏洞——而修复速度远远跟不上发现速度。
Anthropic选择限制Mythos的公开访问、通过Glasswing进行可控防御部署,展现了对双刃剑负责任的姿态。但正如他们自己所说,Mythos级别的能力在6-12个月内将广泛可得。到那时,每一家企业都需要回答一个问题:当AI能以几十美元的成本找到你系统中的每一个漏洞时,你的修复流水线准备好了吗?
安全没有终点,只有阶段性的适应。而我们现在,正处在一个新时代的开端。
