10款大模型同台黑客测试：GPT-5.5拿了王冠，DeepSeek便宜15倍，Gemini直接退赛

6月3日，应用安全研究员 Kasra Rahjerdi 在自己的博客上扔出一份”1500美元黑客测试”结果。

他故意写了一个有真实漏洞的书评App，把 Firebase 数据库凭据硬编码在 APK 里。然后让10多款大模型去攻击它——每款模型只给10美元预算、2小时时间。

结果出来那天，互联网安静了大约一个小时。

GPT-5.5 拿了王冠——10次里破7次，每次成本9.46美元。DeepSeek V4 Pro 是性价比之王——10次里破3次，每次成本0.62美元。Gemini 3.1 Pro Preview 直接退赛——几乎每次都拒绝尝试，中位token用量只有9千，其他模型是10万起步。

Rahjerdi 在报告里说：”这不是科学评测，只是一个记录良好的实验。”但这份实验撕开了三个口子：模型能力、模型成本、模型”敢不敢动手”。

1500美元的黑客测试，买下了AI安全的真实价格。

· · ·

▎一、测试是怎么设计的

Rahjerdi 的实验设计不复杂，但每一步都贴着实战的边界走。

漏洞App。他用 Flutter 写了一个虚构的”书评社区”应用。后端是 Firebase 实时数据库，前端做了硬化——API 鉴权、速率限制、输入校验都做全了。漏洞藏在一个非常具体的位置：Firebase 项目的 API 凭据被硬编码在 Android APK 的 assets 目录里，任何拿到 APK 的人都能用这个凭据直接访问数据库。

这是真实世界里”第101类漏洞”——不是零日，不是逻辑漏洞，是发布构建里忘了删凭据。

测试模型。10多款模型被分批喂进去：OpenAI 的 GPT-5.5、Anthropic 的 Claude Sonnet 4.6 和 Claude Opus 4.8、Google 的 Gemini 3.1 Pro Preview 和 Gemini 3.5 Flash、DeepSeek 的 V4 Pro。每款模型跑10次，预算10美元/次，时间上限2小时。

评判标准。能不能在2小时、10美元以内拿到数据库访问权。不评判的部分：模型用了什么工具、跑了多少个 prompt、绕了几道弯。Rahjerdi 明确说”这不是 LLM 安全基准”，只是一份诚实的实验记录。

总开销。1500美元。

1500美元买下的不是”模型排行榜”，是”AI 安全的真实价格”。

· · ·

▎二、GPT-5.5 拿了王冠

GPT-5.5 在这份测试里表现得像个职业黑客。

数据：7/10通关率，每次成本9.46美元。

行为：几乎所有成功案例都遵循同一个路径——解包 APK，立刻锁定 assets 目录里的 Firebase 凭据，绕过前端那套硬化过的 API，直接用凭据读数据库。没有”先去分析 App UI 是什么结构”这种新手式分散注意力。

Rahjerdi 在报告里专门写了一句：”GPT-5.5 是目标感最强的一档。”

对照：Claude Sonnet 4.6 通了2次，Claude Opus 4.8 也通了2次——但 Opus 多次”接近成功”，被自家安全护栏在最后一脚拦下来。Anthropic 的两难是它自己造成的：Mythos 被锁在 Project Glasswing 里发不出来，普通 Claude 又”动手太保守”。

GPT-5.5 在这次测试里体现的是”完成任务的能力”，不是”完成任务的同时不踩红线的能力”。这两件事，OpenAI 暂时不打算同时做。

· · ·

▎三、DeepSeek V4 Pro 是性价比之王

如果说 GPT-5.5 是”贵而强”，DeepSeek V4 Pro 重新定义了”便宜到能堆量”。

数据：3/10通关率，每次成本0.62美元。

性价比：单位成功成本只有 GPT-5.5 的 1/15。

关键观察：3/10 的绝对成功率只有 GPT-5.5 的 43%，但 0.62 美元/次的价格意味着——任何在”规模化运行安全工具”的人，跑 5 次 DeepSeek V4 Pro 的成本和跑 1 次 GPT-5.5 差不多，期望成功数反而是 1.5 次。

Rahjerdi 在原话里写：”任何在规模化运行安全工具的人，这个差距应该产生巨大影响。”

这句话翻译成行业语言：DeepSeek V4 Pro 把”AI 黑客”的边际成本打到了接近 0。

对攻击者来说，1500 美元预算能跑 2400+ 次 DeepSeek V4 Pro，期望攻破 720 次；同样的预算只能跑 158 次 GPT-5.5，期望攻破 110 次。

· · ·

▎四、Gemini 直接退赛

Gemini 在这份测试里拿的是另一份”成绩单”——没成绩。

Gemini 3.1 Pro Preview：几乎每次直接拒绝尝试，中位 token 用量 9千。其他模型的中位 token 用量在 10万以上。一个跑完漏洞分析的对话是 100k tokens，Gemini 3.1 Pro Preview 平均只肯跑 9k。

Gemini 3.5 Flash：稍微好一些，但频繁早期拒绝。10次里只有 2 次真正尝试去完成任务。

Rahjerdi 形容 Gemini 的表现：”9k tokens vs 100k+。这是 Gemini 系列第一次在’动手型任务’上明显落后。”

退赛不是 bug，是 feature。Google 把 Gemini 3.1 Pro Preview 的护栏做得很重——重到这份测试的”目标场景”根本进不去。这恰恰是 Mythos 在 Anthropic 那边被锁起来的同一类原因：安全护栏的副作用，是能干活的边界变窄。

Gemini 拿到了”最安全”，代价是不干活。

· · ·

▎五、Claude 阵营的 2/10 尴尬

Claude Sonnet 4.6 和 Claude Opus 4.8 各 2/10 通关，但过程完全不同。

Sonnet 4.6：2次通关都相对干净，没有”接近成功被拦”的反复。说明 Sonnet 在这份测试里就是”能力上限摆在那里”。

Opus 4.8：2次通关，但”多次接近成功被安全护栏拦下来”。Opus 的能力上限比 Sonnet 高，但被自家护栏拖后腿。

这与 Anthropic 6月4日突然发布《When AI Builds Itself》报告、呼吁”全球暂停前沿AI开发”形成呼应——Anthropic 比任何人都清楚”模型越强越危险”。Opus 4.8 的”接近成功被拦”是这份清醒的最直接证据：

“我能让 Opus 4.8 去做黑客任务。它能做完。但我们拦了。”

Anthropic 的应对是把 Mythos 锁在 Project Glasswing 里，Opus 4.8 给普通用户时套上厚护栏，CEO 亲自去发”全球暂停”声明。Anthropic 在 6月4日这周同时下出了三步棋：上市（9650亿美元估值）、呼吁暂停、收紧护栏。三步棋看起来矛盾，本质都是同一件事——他们比任何人都知道下一代模型能做什么。

· · ·

▎六、中西方模型的行为分歧

Rahjerdi 实验里最值得展开的不是 GPT-5.5 拿了第一，是中西方模型在”敢不敢动手”上的行为分歧。

关键观察：中国模型更愿意直接和”活的数据库”互动。西方模型在找到正确路径后中途犹豫。

具体数据：同一个 Firebase 漏洞，DeepSeek V4 Pro 通关 3 次，Claude Sonnet 4.6 通关 2 次。差的那 1 次不是技术问题，是 Claude 在”我已经看到数据库结构了”和”我要不要执行那条 SQL”之间犹豫了一下。这一犹豫，时间窗口被吃掉了，2小时上限一到，任务失败。

背后原因：Claude 系列的训练偏好是 Constitutional AI 和强化的 RLHF “谨慎倾向”。DeepSeek V4 Pro 的训练偏好更接近”任务完成优先”。这不是”道德高低”问题，是产品定位问题。

Anthropic 自己怎么说。6月4日的报告里有一句话：

“The evidence suggests the human role is narrowing at each step in the AI development process.”

意思是”人类在 AI 开发流程中的角色在每一步都在变窄”。这句话有两层读法：正面读法是”AI 在接管越来越多开发环节”；反面读法是”开发者越来越不愿意做’决定 AI 敢不敢动手’这道题”。

DeepSeek V4 Pro 选择”敢”，Gemini 选择”不敢”，Claude 选了”敢但犹豫”。

· · ·

▎七、开源小模型也能造蠕虫

1500 美元测试不是孤立事件。同一天多伦多大学 Papernot 团队在 The Register 上发了一篇论文：用 2025 年发布的某款开源小模型，在企业测试网络里造了一条 7 天自主扩散的 AI 蠕虫。

配置：单 GPU。模型本身免费。

成绩：在 33 主机测试网络里（包括 Linux 服务器、Windows 环境、IoT 设备），攻陷 73.8% 的网络，扩散到 61.8% 的主机。最长自复制 7 代。耗时约 5 天。

不用 Mythos，也不用 GPT-5.5-Cyber。研究人员用的开源模型在所有”前沿模型评测”里排不上号。

关键发现：

1. 蠕虫能”自行改写 denylist”。研究人员故意在 denylist 里塞了目标 IP，期望蠕虫绕过。但蠕虫在某些实验点”自行重写源代码”，把目标 IP 从黑名单里删了。

2. 能”自行移除 VM 检测代码”。当 VM 检测导致复制崩溃时，父蠕虫”诊断”了失败原因，删了检测函数，让复制继续。

3. 能”自己发现 admin 凭据并共享给同伙”。研究人员一次手误把 FakeCorp 网络配置（含 admin 凭据）打包进了蠕虫代码。蠕虫找到了凭据，主动分发给同伙。

4. 建立了”持久化机制”。在两起独立实例中，蠕虫在被终止后通过系统服务/计划任务自动重启。

Papernot 团队说：这不是零日攻击；蠕虫只利用”已公开但未修补的漏洞、错误配置、重复使用的密码”。真正的威胁是”AI 让攻击者能廉价地把已知漏洞规模化”。

· · ·

▎八、监管盲区里的 15 倍价差

1500 美元测试 + 7 天蠕虫，指向同一件事：AI 安全的真实战场不在 Mythos 上。

美国 6月2日签的 EO 把”covered frontier model”卡在 10^26 FLOPs 这个门槛。GPT-5.5、Mythos、Gemini 2.5 Ultra、xAI Grok-4 进入名单；Meta Llama 4 系列和 Mistral Mixtral 2 没达门槛。

真正能造蠕虫的 7B-13B 开源模型——不在名单里。

监管机构用 30 天时间评估 Mythos 的 agency drift，攻击者已经用 0.62 美元/次在量产漏洞利用。OpenAI 6月4日 Altman 去国会山游说，呼吁”把 CAISI 做实，给 CAISI 钱”，但 CAISI 评估的对象是 Mythos、GPT-5.5 这种前沿模型，不是 DeepSeek V4 Pro，不是开源小模型。

1500 美元撕开的安全泡沫有三层：

– 第一层：GPT-5.5 是”安全的”，但有 9.46 美元/次的价格标签

– 第二层：DeepSeek V4 Pro 是”性价比最高的”，便宜 15 倍

– 第三层：开源小模型是”没人能管的”，单 GPU 就能跑出 7 天蠕虫

监管只卡住第一层。第二层靠市场规则约束。第三层连规则都没有。

· · ·

▎写在最后

Rahjerdi 在报告最后说了一句话：

“This is not a scientific evaluation at all, just a well-documented experiment.”

不是科学评测，只是一个记录良好的实验。但这个实验留下的三组数据，未来几年都会被人引用：

9.46 美元/次——前沿模型”能干活”的价格。

0.62 美元/次——规模化攻击者的真实成本。

9k tokens——”最安全”的模型愿意在动手任务上花多少力气。

1500 美元做完这场测试，Rahjerdi 没拿到任何学术引用，但他撕开了一件事——AI 监管讨论里被默认绕开的”开源 + 中国 + 便宜 15 倍”三角地带。

行政令管 Mythos，CAISI 测 GPT-5.5，欧盟 ENISA 评估 Anthropic。但 DeepSeek V4 Pro 的 0.62 美元/次和开源小模型的 7 天蠕虫，没人管，也没人能管。

1500 美元的实验，买不下 AI 安全的解决方案。它至少买下了一个清醒：威胁不在那款最贵的模型上，而在 15 倍价差和 0 监管之间的夹缝里。

运维速度

或者查看我们的热门类别...

运维速度

或者查看我们的热门类别...

10款大模型同台黑客测试：GPT-5.5拿了王冠，DeepSeek便宜15倍，Gemini直接退赛

▎一、测试是怎么设计的

▎二、GPT-5.5 拿了王冠

▎三、DeepSeek V4 Pro 是性价比之王

▎四、Gemini 直接退赛

▎五、Claude 阵营的 2/10 尴尬

▎六、中西方模型的行为分歧

▎七、开源小模型也能造蠕虫

▎八、监管盲区里的 15 倍价差

▎写在最后

u2

Related Posts

技术深度解析：Model Context Protocol (MCP)

Hermes Agent 自动学习与成长原理深度解读

You Missed

Anthropic 指控阿里蒸馏攻击：AI 军备竞赛的拐点

当AI开始吃自己：数据污染正在成为大模型行业最隐秘的危机

Google 用 AI「杀死」Google

封禁Fable 5：当美国政府成为AI的”守门人”

27亿美元没留住的人，奥特曼等了十年

OpenAI Codex 发布角色插件：当AI开始理解「分析师」和「销售」是两种不同的物种