2026年1月6日 拉斯维加斯
一年前的”英伟达最大单日跌幅”,一年后变成黄仁勋亲自站台的”基准模特”。
这不是打脸。这叫”反向收割”。
· · ·
▎一、6000亿美元的账,老黄打算用PPT还
先把日历翻回2025年1月27日。
那天DeepSeek R1发布,训练成本不到OpenAI o1的1/10,性能却比肩。消息一出,英伟达股价盘中暴跌17%,单日市值蒸发近6000亿美元,创下美股历史最大单日跌幅纪录。VIX恐慌指数飙了30%,整个美国AI产业链像被人按在地上摩擦了一遍。
那个时候硅谷的分析师们很统一:”中国AI用更便宜的成本做了个差不多能用的模型,英伟达的护城河在塌陷。”
然后时间过去整整一年。2026年1月6日凌晨,CES 2026的主舞台,拉斯维加斯。
黄仁勋穿着标志性皮衣走上台。台下5000多人,全球数百万观众在线看。他没说”忘掉去年那个DeepSeek”,也没说”R1是个意外”。他做的事情更狠——他直接把DeepSeek R1、Qwen3、Kimi K2 Thinking写进了自己下一代Rubin GPU的演示PPT。
按照黄仁勋的演示:在Rubin架构的暴力加成下,Kimi K2 Thinking的推理吞吐量飙了10倍,token成本暴降到原来的1/10。480B的Qwen3和1T的Kimi K2,被当作”模型参数每年10倍scaling”的代表性证据,出现在”计算需求暴涨”那一页。
更早一天,2025年12月,英伟达的官方博客里已经悄悄把DeepSeek R1和Kimi K2 Thinking作为性能评判的标杆——Kimi K2 Thinking在GB200 NVL72上性能暴增10倍。SemiAnalysis的InferenceMax测试里,DeepSeek-R1把每百万token的成本拉低10倍以上。
一年前,DeepSeek R1是让英伟达股价崩盘的那个名字;一年后,它成了英伟达用来卖下一代GPU的”基准模特”。
这不是打脸,这叫”反向收割”。
▎二、3月18日圣何塞:中国面孔第一次站上GTC主舞台
CES只是开胃菜。
2026年3月17-18日,英伟达GTC大会,加州圣何塞。3万人的会场里,月之暗面创始人杨植麟作为本届唯一受邀现场演讲的中国独立大模型公司创始人,登上了主舞台。
演讲标题是《How We Scaled Kimi K2.5》。
这是中国大模型创始人在GTC的第一次。在黄仁勋的舞台上讲”我们是怎么训练一个1.5万亿参数模型的”,这事在过去三年里从未发生过。Sam Altman来过、Demis Hassabis来过、Dario Amodei来过,但从来没有一个中国面孔。2026年3月17日,这个空白被一个1992年出生、瘦高的广东人填上了。
杨植麟讲了三件技术事。
第一件,MuonClip优化器。 自2014年以来,Adam优化器一直是行业默认选择。但Kimi在把Muon扩展到万亿参数规模时,发现了Logits爆炸导致训练发散的问题。团队用Newton-Schulz迭代结合QK-Clip机制,把Muon”驯化”成能稳定跑万亿参数训练的版本,token效率比AdamW高两倍。
第二件,Kimi Linear注意力。 Transformer的核心机制是全注意力(Full Attention),从2017年发表至今没大改过。Kimi通过KDA架构,把”所有层必须用全注意力”的惯例打破,在128K甚至1M上下文里把解码速度提升5到6倍。
第三件,Attention Residuals。 残差连接(Residual Connection)是2016年何恺明提出的,深度学习的基石之一。Kimi把传统的固定加法累加换成对前序层输出的Softmax注意力——本质上是”残差连接是LSTM旋转90度,那Transformer里的注意力机制为什么不能也旋转90度”。
这场演讲的余波有点出乎意料。
前OpenAI联合创始人Andrej Karpathy在社交媒体上直接评论:“我们对Attention is All You Need这篇Transformer开山之作的理解还是不够。” xAI创始人马斯克紧跟一句:“令人印象深刻。”
中国大模型创始人在英伟达主场讲底层架构创新,被OpenAI灵魂人物和xAI老板公开点赞。这种场景在2024年是不可想象的。
▎三、4月20日和24日:同周连发的两个万亿
GTC之后一个月,是历史性的一周。
4月20日深夜。 月之暗面发布并开源Kimi K2.6:1T参数MoE架构,32B激活,256K上下文。在Artificial Analysis智能指数开源榜单上,K2.6拿下了全球开源第一。SWE-Bench Pro上K2.6得58.6%,超过GPT-5.4和Claude Opus 4.6。
K2.6的”封神表演”是连续编码13小时——一口气编写或修改超过4000行代码,完成一整个开源金融撮合引擎的深度重构。这是当时公开记录里,AI模型能持续运行的最长代码任务之一。Agent集群(Agent Swarms)能调度300个子Agent、4000步协同执行,连续跑5天。
4月24日。 DeepSeek V4预览版发布并开源,包含Pro和Flash两款模型。1.6万亿参数,49B激活,首次在官方技术报告里把华为昇腾NPU和英伟达GPU写进了同一份硬件验证清单——”我们在英伟达GPU和华为昇腾NPU两个平台上均验证了细粒度EP(专家并行)方案”。
这两件事凑在一起,意义远超”又发布了两款开源模型”。
第一,全球前五的开源模型榜单上,全部都是中国模型。Kimi K2.6、DeepSeek V4、智谱GLM-5.1、阿里Qwen3.5、字节豆包Thinking——美国选手一个都没有。
第二,国产芯片的”双向适配”真正跑通了。DeepSeek V4走的是”全栈适配昇腾950″路线,推理环节可以直接跑在国产硬件上。Kimi K2.6走的是另一条路线——最新论文《Prefill-as-a-Service》提出跨数据中心异构硬件推理框架,让不同类型的国产芯片分别承担Prefill和Decode两个阶段,实测吞吐量提升54%,首token延迟降低64%。
这意味着国产芯片第一次真正进入了大模型推理链条的主流路径,而不是”备份选项”。
第三,全球开发者社区的反应极其直接。OpenRouter Q1 2026数据显示,中国开源模型的周Token调用量占比已经超过60%——一年前这个数字还是个位数。一年时间,调用占比从<2%翻到>60%。
▎四、全球开发者用脚投票:Cursor选了中国模型
调用量60%是宏观数字。微观故事更刺激。
第一,硅谷头号AI代码工具倒戈。 2026年3月19日,估值约500亿美元的Cursor发布旗舰模型Composer 2,号称”自研”。结果被开发者扒出底层模型ID显示是Kimi K2.5。Cursor联合创始人Aman Sanger事后承认,候选清单里只有GLM-5、Kimi K2.5、DeepSeek V3.2——完全没有Claude、Gemini或GPT。
第二,日本”自研”大模型被扒皮。 2026年4月,日本乐天集团发布”Rakuten AI 3.0″,号称”完全自研”。但技术社区很快发现,模型架构、训练数据、API接口全部基于DeepSeek V3。
第三,价格碾压。 DeepSeek-V4-Flash每百万Token输入(缓存命中)仅0.02元人民币,是Kimi K2.6的1/55、GPT-5.5的1/180。同样的预算,用DeepSeek跑一天,用GPT-5.5只能跑19分钟。
a16z合伙人Martin Casado公开观察到:”如今在硅谷寻求融资的AI初创公司中,路演核心模型高达80%使用中国开源模型。”
一年前黄仁勋CES演讲时,DeepSeek还是英伟达的”股价杀手”。一年后,DeepSeek和Kimi已经是硅谷创业公司”默认选择”——甚至不需要明确说”我用了中国模型”,因为已经是标配。
▎五、为什么是中国?三个底层的”中国时刻”
回到那个根本问题:为什么是中国?
第一层:技术默契。 从DeepSeek-R1和Kimi K1.5仅隔两小时发布,到DeepSeek-NSA和Kimi MoBA论文同期发表,到Kimi数学推理模型启发DeepSeek-Prover V2,再到Kimi K2.6和DeepSeek V4同周发布——这两家公司形成了一种”你验证我接力”的奇特默契。Kimi用了DeepSeek的MLA注意力机制,DeepSeek V4则接过了Kimi验证过的Muon优化器。
技术报告互相引用对方成果,海外社区没人指责”抄袭”,反而称之为”踢踏舞般的技术合作”。
第二层:组织密度。 4月10日下午,国务院总理主持召开企业家座谈会。杨植麟是最年轻的一位,1992年出生,也是现场唯一的大模型创业者。这和杨植麟登上GTC舞台一样——都是历史第一次。
更深一层的支撑,是中国有全世界最完整的”电力-算力-应用”三角。宁德时代砸155亿做算电协同(从电池到IDC到大模型全链路),美团龙珠抢着投Kimi,腾讯、京东、网易、IDG抢着投DeepSeek,互联网大厂分裂成”投资派”和”自研派”两个阵营,但底牌是——这个国家有14亿人口、全球最大的制造业、最完整的电力基础设施、最密集的AI工程师群体。
第三层:开源姿态。 在GPT-5.5、Claude Opus 4.7、Gemini 3 Pro全部选择闭源赚企业API钱的时候,中国大模型选择了另一条路。开源不只是技术选择,是生态策略——把开发者、工具链、上下游企业锁进自己的生态里。Cursor选Kimi,是因为可以私有化部署、合规可控、可以微调。乐天选DeepSeek,是因为成本只有闭源模型的1/10到1/180。
▎六、不是参数胜出,是生态胜出
回到开篇那个6000亿美元的账。
一年前,DeepSeek R1让英伟达暴跌,市场解读为”中国AI挑战英伟达护城河”。一年后,黄仁勋把DeepSeek、Kimi、Qwen写进自己下一代GPU的PPT,市场才发现——真正的护城河不是某个模型,是整个生态。
Rubin架构、DGX Spark、Blackwell超算,这些是算力底座。底座之上跑什么样的模型,决定了这个生态是繁荣还是萧条。黄仁勋之所以”不计前嫌”地把中国模型摆上C位,不是因为他大度,是因为他意识到一个残酷的事实:没有中国开源模型的算力集群,就像没有发动机的超跑——硬件再强也跑不快。
杨植麟在GTC的演讲最后说了一句很克制的话,大意是:“我们这个时代有趣之处在于研究心态的转变。十年前主要是发表想法,很难产出可靠结果。现在有了Scaling阶梯,有足够资源在不同规模、不同设置下做实验,更容易得出自信、可靠的结论。”
这是中国大模型创业者第一次在英伟达主场,用”研究的客观性”代替”地缘政治叙事”。杨植麟没有讲”我们比美国强”,没有讲”我们打破封锁”,他讲的是MuonClip、Kimi Linear、Attention Residuals——纯技术。
但正是这种”把地缘叙事降到最低、把技术叙事提到最高”的姿态,让Karpathy、马斯克、黄仁勋这些英伟达生态的”自己人”开始点赞。
这是AGI的”中国时刻”真正危险的地方:它不是靠民族叙事胜出,是靠”被英伟达生态接纳”胜出。 当一个国家的大模型创始人和硅谷的AI教父能用同一套语言讨论Muon优化器的稳定性,AGI的全球版图就已经不只是”美国vs中国”了。
一年前DeepSeek R1是个意外,震动美股6000亿美元。一年后DeepSeek+Kimi是规则,写进黄仁勋的PPT,登顶全球开源榜单,被Cursor做底座,被乐天”自研”,被全球开发者用脚投票。
AGI的中国时刻,不是某一天突然到来。它已经在2026年的1月、3月、4月、5月、6月,一页一页写进黄仁勋的PPT里。
· · ·
一个月后的5月22日,DeepSeek V4-Flash以3.43万亿Token的周调用量首次登顶OpenRouter全球第一。94%的用户来自海外。
腾讯Hy3 preview以3.07万亿Token排第二,Kimi K2.6跌出前五但仍在前十。
中国大模型周调用量9.223万亿Token,连续四周超过美国4.93万亿Token。
那个”中国AI意外”的故事,已经没人讲了。