亚马逊、谷歌、苹果和英伟达如何争夺人工智能的灵魂——以及这对你的钱包、应用和隐私意味着什么
帝国反击……自己人
多年来,对于“什么在运行AI?”这个问题只有一个答案——英伟达。一家供应商,一个生态系统,每个季度末一张令人瞠目结舌的账单。
那个时代正在终结。
到2026年,AI芯片市场已经分裂成一场由全球最具价值公司参与的四方大战,每家公司都在押注数十亿美元,相信它们能打造出比英伟达现成产品更适合自身需求的芯片。结果是:更廉价的AI、更快的应用,以及科技行业权力版图的彻底重绘。
以下是正在发生的真实情况——以及为什么无论你是开发者、创始人,还是每天都在用ChatGPT或Claude的普通用户,这都应该与你息息相关。
认识一下参赛选手
🟢 英伟达——卫冕冠军
英伟达目前仍控制着AI加速器市场约80–90%的收入,训练市场份额超过90%。其Blackwell B200和即将推出的Rubin平台依然是黄金标准,一大原因是:CUDA,这个历经二十年打磨的软件生态系统,每位AI研究人员都熟记于心。
但盔甲上出现了一道裂缝。英伟达约40%的收入来自仅四家超大规模云服务商——谷歌、亚马逊、微软和Meta——而这四家现在都在研发芯片,专门用来减少对英伟达的依赖。
🟠 亚马逊Trainium 3——成本杀手
在2025年AWS re:Invent大会上发布的Trainium 3芯片基于台积电3纳米工艺,封装在“Trn3 UltraServer”中,每个系统最多包含144颗芯片,提供362 FP8 PFLOPs算力,延迟比上一代降低4倍。
对客户来说最重要的数据:
- 4倍于Trainium 2的计算能力
- 能效提升40%
- 成本比等效GPU配置降低高达50%
- 单个UltraCluster中最多可连接100万颗芯片
客户信号:AWS Trainium已处理Amazon Bedrock超过50%的Token吞吐量,而Anthropic(没错,就是Claude的创造者)已承诺在未来十年内在AWS上投入超过1000亿美元,目前已有近100万颗Trainium 2芯片在训练Claude。
🔵 谷歌TPU Ironwood(v7)——推理猛兽
谷歌的第七代TPU Ironwood于2025年底发布,性能令人瞠目结舌:
- 单芯片4,614 FP8 TFLOPs,配备192GB HBM3e内存(是Trillium的6倍)
- 单个超级吊舱可扩展到9,216颗芯片,提供42.5 FP8 ExaFLOPs算力
- 在吊舱级别,这大约是英伟达GB300 NVL72系统的118倍计算能力
- 峰值性能是TPU v5p的10倍,单芯片效率比Trillium提升4倍
- 每颗芯片的总拥有成本比GB200服务器大约低44%
Anthropic宣布计划接入多达100万颗TPU——这笔交易价值数百亿美元——原因是“强大的性价比和效率”。翻译过来就是:即使是CUDA训练模型的王者也在用钱包投票。
🍎 苹果M5——边缘AI的黑马
这块芯片在超大规模云服务商的讨论中无人提及,但它值得关注:苹果M5,于2025年10月发布。
它并非为训练万亿参数基础模型而设计。它设计出来是为了做一件更具颠覆性的事——在笔记本电脑、平板电脑或头戴设备上直接运行AI,无需向云端发送一个字节的数据。
规格参数:
- 基于第三代3纳米技术
- 10核GPU,每个核心都配备神经加速器
- AI任务的峰值GPU计算能力是M4的4倍以上
- 16核神经网络引擎,提供高达38 TOPS算力
- 153 GB/s的统一内存带宽(比M4提升近30%)
- M5 Max最高支持128 GB统一内存——足以完全在设备上运行700亿以上参数模型
M5 Max更进一步,采用融合架构将两颗芯片Die连接成一个SoC,可扩展到40核GPU。实际效果:一个140亿参数的语言模型在MacBook Pro上生成第一个Token只需不到10秒。AI图像生成比上一代快3.8倍。
🖥️ 苹果M3 Ultra Mac Studio——本地LLM怪兽
如果说M5是边缘AI的黑马,那么搭载M3 Ultra的Mac Studio就是一台本地LLM工作站,它悄无声息地打破了桌面上可能实现之事的规则。
这款产品于2025年3月发布,让AI开发者社区为之侧目。为什么?最高512GB统一内存,带宽819 GB/s——装在一个比一摞披萨盒还小的机箱里,售价不到10,000美元。
关键规格:
- 32核CPU + 80核GPU(苹果有史以来最大的GPU)
- 最高512GB统一内存,819 GB/s带宽
- 六个Thunderbolt 5端口,可将多台Mac Studio集群成超过1TB的内存池
- 基于UltraFusion技术,将两颗M3 Max Die连接成一个SoC,缓存一致性
- 定价:512GB / 1TB SSD配置为9,499美元,顶配约14,099美元
它的非凡之处在于:M3 Ultra是地球上唯一能够完全在本地运行DeepSeek R1(6710亿参数)的消费级设备。实际基准测试显示,在完整的4位量化模型上,它能够达到每秒17–18个Token的速度——足以满足大多数实际应用,而且整个过程无需进行一次API调用离开机器。
与替代方案相比。要匹配一台Mac Studio的512GB统一内存,使用英伟达硬件大约需要16块RTX 5090 GPU——前期成本高出4倍,耗电量大约高出40倍。对于一个每天运行LLM 10小时的企业来说,仅电费一项就相当于每月约10美元对比每月约400美元。Mac仅凭电费节省就能收回成本。
缺点是?在批量处理工作负载方面,每美元原始GPU计算能力仍然更青睐英伟达,而且许多AI框架仍然优先支持英伟达。但对于内存限制的工作负载——运行拥有长上下文窗口的大型模型、无法上传到云端的敏感企业数据,或进行快速的本地原型开发——确实没有其他选择能与之媲美。
为什么是M3 Ultra而不是“M4 Ultra”?苹果没有在M4 Max Die上包含UltraFusion连接器,使得第四代Ultra在物理上无法实现。因此,M3 Ultra仍然是苹果旗舰级桌面AI芯片——并且很可能一直持续到M5 Ultra问世。
正面交锋:性能、价格,以及各自的制胜领域
| 芯片 | 最佳应用场景 | 峰值算力 | 内存 | 大致成本定位 | 获取渠道 |
|---|---|---|---|---|---|
| 英伟达B200/GB300 | 前沿模型训练 | 4.5 PFLOPs FP8 | 192GB HBM3e | 高端(行业利润率最高) | 无处不在——AWS、Azure、GCP、本地部署 |
| AWS Trainium 3 | 成本优化的云端训练和Bedrock推理 | 约362 FP8 PFLOPs / UltraServer | 每服务器144颗芯片 | 比等效GPU便宜约50% | 仅限AWS |
| 谷歌TPU Ironwood | 大规模推理和前沿训练 | 4,614 FP8 TFLOPs/芯片 | 192GB HBM3e | 总拥有成本比GB200低约44% | 仅限谷歌云 |
| 苹果M5 / M5 Max | 设备端推理、创意AI、注重隐私的应用 | 约38 TOPS神经网络引擎 + 4倍GPU AI算力 | 最高128GB统一内存 | 1,999–3,999美元(含笔记本电脑!) | 任意Apple Store |
| 苹果M3 Ultra(Mac Studio) | 本地运行大型LLM、隐私关键型工作负载 | 80核GPU,819 GB/s带宽 | 最高512GB统一内存 | 9,499–14,099美元 | 苹果官方直营 |
核心洞见:不存在“最佳”芯片
这些芯片各自赢得的是完全不同的战场:
- 从零开始训练一个前沿模型?英伟达仍然拥有最深厚的软件栈和最灵活的编程模型。
- 廉价地服务数十亿次API调用?Trainium和Ironwood正在推理经济性上蚕食英伟达的午餐。
- 在没有互联网的笔记本电脑上运行AI?苹果Silicon(M5)自成一派。
- 在办公桌上运行一个6710亿参数的模型?Mac Studio M3 Ultra——令人惊叹地——是唯一能做到这一点的消费级机器。
单一供应商依赖的时代已经结束。欢迎来到多芯片、多供应商的AI时代。
这对企业意味着什么
💰 更低成本,更好利润
如果你在大规模运行AI工作负载,算账的方式突然就变了。包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh和Splash Music在内的公司,通过Trainium将训练成本降低了高达50%。Decart实现了生成式视频推理速度提升4倍,成本仅为GPU的一半。
对于一个每月在推理上花费50,000美元的初创公司来说,这意味着每月可能多出25,000美元回到银行账户——这些钱可以投入到产品、招聘或延长公司运营周期中。
🚀 更快的上市速度
过去需要数月时间的训练周期现在只需数周。辉瑞正在使用运行在AWS硅芯片上的Claude on Bedrock,节省了数千万美元的运营成本,同时加速了药物研发时间表。Lyft构建了一个面向超过100万名司机的Claude驱动支持代理,实现了平均解决时间减少87%。
🔓 供应商多元化
在此之前,AI战略实际上就是“能买到什么英伟达GPU就买什么”。现在,聪明的公司正在运行混合技术栈:在需要灵活性的地方用英伟达训练,在需要控制成本的地方用Trainium或TPU推理,并将延迟敏感的功能推送到苹果Silicon设备上。
⚖️ 陷阱:新的锁定效应
Trainium仅在AWS上运行。TPU仅在谷歌云上运行。选择定制芯片意味着选择一个云服务商——至少目前如此。节省的成本是真实的,但战略依赖性也同样真实。
这对用户意味着什么
⚡ 更快、更便宜、更好的AI应用
当推理成本下降50%时,这种效益会贯穿整个技术栈。预计会看到:
- 你已经在使用的应用中的AI功能会大幅提速
- 免费套餐会更加慷慨
- 高级订阅会在保持价格不变的情况下功能更强
- 会出现全新类别的AI应用,它们以前根本不具备建造的经济性
🔐 无需妥协的隐私
这正是苹果Silicon彻底改变讨论的地方。在2025年之前,“AI功能”基本上就意味着“你的数据被发送到某个服务器”。到了M5这一代,你现在可以在笔记本电脑上完全本地运行一个140亿参数的语言模型——无需云端、无需遥测、无需妥协。
而如果你升级到搭载M3 Ultra的Mac Studio,你可以本地运行前沿级别的模型——拥有6710亿参数的DeepSeek R1,完整上下文,毫无妥协。对于医院、律师事务所、投资银行或政府机构来说,数据主权不是可选项,这堪称革命性。AI永远不会离开建筑物。
对于任何从事医疗、法律、金融行业的人,或者只是重视隐私的人来说,这确实具有变革意义。你的治疗师笔记、法律文件、代码——它们永远不需要离开你的设备。
🌍 更可持续的AI
Trainium 3能效提升40%,加上TPU和苹果Silicon效率的类似飞跃,意味着AI革命不必以无法承受的碳足迹为代价。在一个竞相建设千兆瓦级数据中心的行业中,降低能耗,而不是增加能耗,已经成为一项竞争优势。
展望:到2028年谁会赢?
预测数据令人震惊。预计到2027年,定制ASIC的出货量将达到2024年水平的三倍,并在2028年超过GPU出货量。超大规模云服务商预计在2024年至2028年间累计部署4000万颗定制AI芯片。
英伟达的整体市场份额预计将从今天的约85%下滑到2026年约75%,其推理市场份额可能从90%以上下降到2028年的20–30%。
但这里有细微差别:英伟达并非在失去市场——而是整个蛋糕正在变得更大。AI加速器市场已从2023年的550亿美元增长到2025年的约1600亿美元,并将在2026年迈向2000亿美元以上。即使只有75%的份额,英伟达的收入绝对值仍在增长。
真正在终结的是垄断级别的定价权。而这,比任何其他因素都更能说明定制芯片为何如此重要。
总结
我们正在实时目睹自云计算兴起以来计算经济学最剧烈的转变。
以下三件事现在同时成立:
- 英伟达仍然占主导地位——并且将在未来几年内保持这一地位。
- 来自亚马逊、谷歌、微软和Meta的定制芯片正在结构性削弱这种主导地位,尤其是在推理领域。
- 苹果正在通过让云端成为可选项,悄然构建最具颠覆性的芯片故事。
赢家不会是“英伟达vs.其他所有人”。赢家将是那些能够熟练驾驭这个新多芯片世界的公司——以及用户,他们能够为合适的工作负载、以合适的价格选择合适的芯片。
2023–2024年的AI淘金热关乎不惜任何代价获取算力。2026年的AI淘金热关乎以合适的价格获取智能算力。
同一场革命。新规则。
对于哪种芯片在你的技术栈中胜出,或者你将在未来12个月内押注哪一款,有什么想法吗?请留言评论——我们很想知道你是如何应对这一转变的。



