一张130万美元的对账单
5月15日, OpenClaw创始人Peter Steinberger在自己的macOS菜单栏工具CodexBar里截了一张图, 本来是给网友展示UI更新的. 整个互联网看到的不是新功能, 是那个数字.
30天, $1,305,088.81.
折人民币接近一千万. 烧掉这些钱的不是上市公司, 不是硅谷独角兽, 是一个3人团队, 在GitHub上做开源项目OpenClaw.
30天里, 100个Codex agent同时在云上跑, 处理了760万次API请求, 消耗6030亿tokens. 单日峰值2万美元, 19亿tokens, 20.6万次请求.
主力模型是GPT-5.5的Fast Mode版本. Steinberger后来补了一句: 关掉Fast Mode便宜70%, 也就30万美元.
即便”优化版”, 摊到每个agent头上, 一个月也要3000美元. 100个agent一年360万美元.
360万美元. 在旧金山能雇大约15个senior engineer. 这不是”AI替代人力”的胜利, 是”AI比人力贵得多”的账单.
算清三笔账
第一笔, OpenClaw. $130万/月, 100个agent, 3个真人监督. Steinberger客气说”一个员工”, 算上agent运行、token消耗、模型版本、retry循环, 这是十几个senior engineer的等量开销.
有条被点赞最多的评论算得更狠: “$1.3M/月, $15.6M/年, 在San Francisco能雇70个senior engineer全天工作, 3个带不限量Codex access的人不可能比70个同等水平的工程师干得多. 这就是纯粹的愚蠢.”
第二笔, Uber. 4月CTO Praveen Neppalli Naga亲口承认, 公司2026全年AI编程预算4个月烧完. 5000名工程师里84%成了Claude Code重度用户, 个体月花$500-$2000. 按预算12个月摊销, 真实消耗是预算的3倍.
Uber内部甚至搞了个”Claudeonomics”排行榜, 鼓励大家多花token, 花得多的团队上光荣榜. 现在光荣榜停了, CFO在发火. 更刺眼的是, 70%的代码commit来自AI, 11%的后端更新由agent无人值守上线——AI确实被”用起来了”, 但用得越好, 烧得越快.
第三笔, Microsoft. 2025年7月, 开发者部门总裁Julia Liuson发内部邮件”AI is no longer optional”, 要把AI使用纳入绩效.
一年后, 2026年5月, 微软开始取消Experiences and Devices部门(就是做Windows、Office、Teams、Surface那帮人)的Claude Code授权, 6月30日财年结束前全部切回自家GitHub Copilot CLI.
同一时间, 微软给Anthropic的投资照旧——$50亿入股+Anthropic承诺从Azure买$30亿算力. 这两件事不矛盾. 微软不是反AI, 是在自己的成本表上, 第三方模型贵到没法让工程师随便用.
三笔账, 三个行业, 一个共同点: AI被要求”提效”, 但账单失控.
为什么不是”AI太贵”, 是”计价方式错位”
老一辈的IT花销是许可证. 一份Office卖$300/年起, 不管你用不用Word, 微软都收这么多. SaaS是订阅, 一个Seat $30/月, 不管你每天登录几次. 这两种定价都按人头算, 用得越狠单次成本越低. CFO们很熟这个游戏, 买软件就是买人, 边际成本接近零.
AI不是这个游戏. AI按token算钱. 一次API调用, 输入多少token, 输出多少token, 走多长的context, 调几次tool, retry几次, 每一笔都进账单. 7×24的agent等于把一个人一月上班22天×8小时, 改成一个进程7×24小时, 每一秒都在烧钱.
这就是为什么Anthropic在4月禁止OpenClaw跑在消费级Claude订阅上. 一个OpenClaw实例一天能烧$1,000-$5,000的API成本, 用户每月只付$200的Max订阅费. 经济上撑不住, 只能加条款, 直接禁. 同一逻辑解释了为什么Microsoft要把自己工程师从Claude Code上赶下来, 哪怕微软投资了Anthropic$50亿. 投资是战略, 内部用Claude Code是预算, 两本账.
Nvidia的VP Bryan Catanzaro在Axios采访里说了一句很重的话: “对我们团队来说, 计算成本远超员工成本.” 一个卖算力的公司, 自己都觉得算力比人贵. 这不是AI有问题, 是当前阶段把agentic AI接进企业工作流, 计价方式注定烧钱.
Glean的CEO Arvind Jain把这件事说透: “我有记忆以来, 这是第一次, 科技成本等于人力, 你要做这个比较: 要科技还是要人.” 过去的科技永远是辅助, 是固定开销, 是摊薄工具. 这次不是. 这次是同台比单价.
老板的幻觉: AI = 裁员
Liuson的邮件是这个幻觉的官方版本. 微软30万员工, 推动全员用Copilot, 想的是”用AI把人头砍下去”.
2025年3月微软自己披露过, 内部Copilot Chat在三个月部署期省了90万小时, 折合每个员工每月省1小时. 这数字听起来漂亮, 但要配套的成本是$30/用户/月 × 30万用户 = $9M/月的license基础盘, 还没算agent调用、tool calls、模型升级带来的额外token消耗.
把这两笔账放一起: 省了90万小时(约等于450个full-time员工一年的工作量), 烧了至少$108M/年的license+token. 投入产出比是1:0.2. 这还是”省时间”的部分, 还没算”省人”——因为省人得先有替代, 而替代是agent, agent是token黑洞.
Uber走得更远. 内部”Claudeonomics”榜单, 让团队比谁用得多, 让管理者用token量衡量下属. 结果70%的代码commit来自AI, 11%的后端更新由agent无人值守上线.
听起来是AI革命的样板间.
然后CTO说: 4个月烧完全年预算. 个体工程师月花$500-$2,000, 这是单个senior engineer月薪的1/10到1/3. 看起来”便宜”吗? 乘以5000个工程师呢? 乘以12个月呢?
Amazon内部也在推”toxenmaxx”, 用越多越光荣. 同一个幻觉, 不同公司, 同一个结局.
MIT 2024年的一项研究把这个算式提前算过: 在视觉相关任务上, AI要替代人力, 只对23%工资对应的场景比人便宜. 剩下77%, 雇个人还更省. 这个分母, 鼓吹AI替代叙事的人基本不提. 不是他们不知道, 是提了之后没法讲”AI = 裁员”的故事.
谁在为Token买单
这里有个更脏的问题: 在多数公司里, AI的token费用算在谁头上?
IT部门? 那是固定预算, 一超就砍项目. 业务部门? 业务部门的人连token是什么都不一定知道. 创新基金?
那是给新项目试水的, 一次两次可以, 一年下来CFO会问. 个人信用卡报销? 工程师自掏腰包, 知乎段子看多了, 真报销没几家.
结果就是: AI花销是”无人认领”的钱. 老板的KPI是”用AI”, 工程师的KPI是”交付”. token账单夹在中间, 既不归业务也不归IT, 没人看细账.
大家关心的是”模型又升级了”, 不是”上个月X部门烧了多少”. Uber能撑4个月才暴露问题, 已经是管理规范的体现. 国内很多公司, 一年下来都不知道自己在token上花了多少.
Anthropic封禁OpenClaw的决定, 真正值得读的不是”禁了”, 是它揭示的事实: 多数公司的AI花销, 没有内部审计. 厂商是先看见账单, 然后才反过来教育用户.
三个真问题, 在于”用错”
如果AI不便宜, 是不是就别用了? 不是. 是用法错了三件事.
第一, 计价单位要换. 别再按”license seat”算AI. 要算”per-task cost”. 一个PR review多少钱, 一个客服对话多少钱, 一篇内容生成多少钱. 这个数字出来, 才能跟人力比. 没这个数字, 别谈ROI.
第二, 模型要路由. Glean的Jain说, 现在95%的企业AI负载跑在最贵的前沿模型上, 即便很多任务用便宜模型就能干. 仅仅是把简单任务路由到便宜模型, 就能省10倍.
同一个任务, 给GPT-5.5和给本地小模型, 效果差不多, 钱差一个数量级. 多数公司的工程团队还没做这件事.
不是不会做, 是没人提. Anthropic在4月的封禁也是同一逻辑: 用$200/月订阅跑出$1,000-$5,000的API调用, 就是没做模型路由.
第三, Copilot和Agent是两件事. Copilot是副驾, 一次任务, 一次调用, 一次token, 边际成本可预测. Agent是代驾, 多步推理, 多tool call, 长时间运行, retry循环, 成本指数级上升.
老板推AI提效, 想的都是Copilot; 工程师拿到工具, 干的全都是Agent的事. 预期和实际错位, 钱就在错位里蒸发.
Goldman Sachs最近预测, 到2030年agentic AI会推高token消费24倍, 达到每月120 quadrillion tokens. 单token价格会跌90%, 但总账单会涨.
Gartner的分析师Will Sommer警告得很直接: “CPO们不要把通用token的通缩, 误读成前沿推理的民主化.” token单价在降, 但你要买的不是token, 是推理, 推理没便宜. Jensen Huang说未来每个员工配100个agent——这是愿景, 不是成本表.
给”AI提效”鼓吹者的对账单
回到那张130万美元的截图. 截图发出来之后, 网上评论最多的一句话是: “$1.3M/月, 能雇70个senior engineer, 3个带不限量Codex access的人不可能比70个同等水平的工程师干得多.”
企业要推AI, 行. 先回答三个问题, 再决定推不推, 推多深.
一, AI替的这个人, 时薪多少? AI跑这个任务, 摊到每一次调用的全成本多少? 后者必须小于前者, 否则这笔买卖不成立. 多数场景里, 这个数字没算过.
二, 你的AI负载, 多少跑在最贵模型上, 多少应该路由到便宜模型? 90%在最贵模型上, 还是30%在最贵模型上? 这个比例直接决定你的AI账单. 多数公司连这个数都没有.
三, 谁是Copilot的用户, 谁是Agent的运营方? 这两个角色的预算, 不能放在一个池子里. 否则Agent的不可预测性会吞掉Copilot的可控性, 反过来让Copilot的预算也保不住.
如果这三个问题答不上来, 推AI不是提效, 是把公司账上的”人力费”科目, 换了个名头, 写进了”云服务费”科目. CFO月底一对账, 数字没变, 名头变了, 老板也讲不清”我到底省了什么”.
OpenClaw是个极端例子, 因为它本来就是实验. Steinberger自己说: “如果token成本不是约束, 软件开发会怎么变.”
这个实验有意义, 但它要回答的不是”我们能不能也这样做”, 而是”这种不计成本的开发模式, 是不是我的公司该走的路”. 答案对绝大多数公司都是否.
真正要回答的是:
我公司, 在我行业的我这条业务线上, AI做这个具体任务, 单位成本是不是真的比人便宜.
不便宜, 就别替. 便宜, 再来谈ROI.
否则, 130万美元的账单会按比例缩到你公司头上. 你以为自己在裁员, 实际上你在招一个不睡觉、不请假、不休产假、但要按通话时长付费的”幽灵员工”.
你省的人力费, 不够买Token!