芯片对决：重塑人工智能的两千亿美元之战

亚马逊、谷歌、苹果和英伟达如何争夺人工智能的灵魂——以及这对你的钱包、应用和隐私意味着什么

更新（2026年6月7日）：本文已修订，将其数据归因于指定来源（见配套来源列表），对时效性数字标注日期，并澄清标题中的“两千亿美元”特指AI加速器/芯片市场——而非总AI基础设施支出（后者要大数倍，见“展望”）。规格和定价数字截至所述日期；市场份额和市场规模数据为第三方估计，随时间变化。

帝国反击……自身

多年来，“什么驱动AI？”的答案只有一个——英伟达。一家供应商，一个生态系统，每个季度末一张令人咋舌的账单。

那个时代正在终结。

2026年，AI芯片市场已分裂为一场四方战争，参战方是全球最有价值的公司，每家都押注数十亿美元，认为他们能制造出比英伟达现成芯片更适合自身需求的芯片。结果如何？更便宜的AI、更快的应用，以及科技行业权力版图的彻底重绘。

以下是实际发生的情况——以及为什么无论你是开发者、创业者，还是只是每天使用ChatGPT或Claude的人，这都与你息息相关。

竞争者一览

🟢 英伟达——卫冕冠军

根据2025年多数行业估计，英伟达仍控制着AI加速器市场约80–90%的收入，训练份额超过90%。其Blackwell B200和即将推出的Rubin平台仍是黄金标准，原因一个：CUDA，这个历经二十年打造的软件生态系统，每个AI研究者都烂熟于心。

但盔甲上出现了裂缝：英伟达数据中心收入的很大一部分来自少数几家超大规模企业——谷歌、亚马逊、微软和Meta——而这四家现在都在自研芯片，目的正是减少这种依赖。

🟠 亚马逊Trainium 3——成本杀手

在2025年AWS re:Invent大会上发布，自2025年12月起全面上市，Trainium 3是AWS首款3nm AI芯片（台积电制造）。它被封装在名为“Trn3 UltraServer”的系统中，每个系统最多144颗芯片，提供362 FP8 PFLOPs的算力，延迟比上一代降低4倍。

客户关心的数字（据AWS，与Trainium 2对比）：

高达4.4倍计算性能
4倍能效提升
成本降低约50%（客户报告，与等效GPU方案相比）
数千个UltraServer可连接多达100万颗Trainium芯片——约为上一代的10倍

客户信号：Anthropic——Claude的开发商——于2026年4月承诺在未来十年内投入超过1000亿美元用于AWS，锁定最高5GW的容量，目前通过Project Rainier运行超过100万颗Trainium 2芯片来训练和服务Claude。AWS还列出了Karakuri、Metagenomi、NetoAI、Ricoh和Splash Music等早期Trainium 3客户。

展望未来，AWS已预览其继任者：据AWS称，Trainium 4将提供至少3倍于Trainium 3的FP8性能和4倍的内存带宽——并且值得注意的是，它将支持英伟达的NVLink Fusion互连，让客户在单个集群中混合使用Trainium和英伟达芯片。预计在2026年底至2027年问世。

🔵 谷歌TPU Ironwood（v7）——推理巨兽

谷歌第七代TPUIronwood于2025年底发布，其规格引人注目：

每颗芯片提供4,614 FP8 TFLOPs，配备192GB HBM3e内存（是Trillium的6倍）
单个超算集群可扩展至9,216颗芯片，提供42.5 FP8 ExaFLOPs的计算能力
在集群级别，其FP8计算能力约为英伟达GB300 NVL72的118倍，据Tom’s Hardware报告，GB300 NVL72为0.36 ExaFLOPS（42.5 ÷ 0.36 ≈ 118）
每瓦性能约为Trillium的2倍，据谷歌称

Anthropic于2025年10月宣布计划使用多达100万颗TPU——这笔交易价值数百亿美元——理由是“性价比和效率优异”。（截至2026年4月，Anthropic已将这一承诺扩大至与谷歌和博通合作约3.5GW的TPU容量。）换言之，即使是一家重度依赖CUDA的模型开发商也在用钱包投票。

🍎 苹果M5——边缘AI暗马

这是一颗在超大规模计算讨论中无人提及、但值得关注的芯片：苹果M5，于2025年10月发布。

它并非为训练万亿参数的基础模型而设计。它的设计目标更具颠覆性——直接在笔记本、平板或头显上运行AI，不向云端发送任何数据。

据苹果称，M5系列（Pro和Max于2026年3月推出）：

基于第三代3nm工艺（台积电N3P）
每个GPU核心内置神经加速器——AI GPU计算能力是M4的4倍以上
GPU从基础M5的10核扩展至M5 Max的40核（全新双芯片“融合架构”）
更快的16核神经引擎
统一内存：基础版最高32GB，Pro版64GB，Max版128GB
内存带宽：基础版153GB/s，Pro版307GB/s，Max版614GB/s
M5 Ultra： 尚未公布——预计出现在未来的Mac Studio中，传闻可达256GB，但请将其视为预期而非确认规格

实际效果：在M5这一代，设备端推理——本地图像生成和运行中小型LLM而无需云端往返——在笔记本上变得真正可用。（如需亲手在Apple Silicon上运行模型，请参阅我们的指南：在Mac上使用MLX运行开源模型。）

🖥️ 苹果M3 Ultra Mac Studio——本地LLM怪兽

如果说M5是边缘AI的暗马，那么配备M3 Ultra的Mac Studio则是一台悄悄打破桌面计算规则的本地LLM工作站。

这款芯片于2025年3月发布，让AI开发者社区大吃一惊。为什么？最高512GB统一内存，带宽819 GB/s——装在一个比一摞披萨盒还小的盒子里，起步价不到10,000美元。

关键规格：

32核CPU + 80核GPU（当时苹果推出的最大GPU）
最高512GB统一内存，带宽819 GB/s
Thunderbolt 5端口，可将多台Mac Studio集群为更大的内存池
基于UltraFusion，连接两颗M3 Max芯片为一个SoC
价格（据苹果当前配置器）：512GB / 1TB SSD配置为9,499美元，满配约14,099美元

它的非凡之处在于：M3 Ultra是少数几款可以完全在本地运行DeepSeek R1（6710亿参数）的消费级设备。据评测者Dave Lee（Dave2D）在MacRumors上的测试，这台机器以约17–18 tokens/秒的速度运行完整的4位量化模型——足以满足许多实际用途，且无需任何API调用离开设备（需手动提升VRAM分配，模型占用约448GB内存）。

对比另一种方案 （说明性估计，假设约0.12美元/千瓦时，每天使用10小时）：要匹配一台Mac Studio的512GB统一内存，使用英伟达消费级硬件大约需要16块RTX 5090 GPU（每块32GB）——前期成本高得多，功耗约为40倍。对于每天运行LLM约10小时的企业，仅电费一项就相差每月约10美元与每月数百美元。

缺点是什么？每美元原始GPU算力方面，英伟达在批处理工作负载上仍占优势，且许多AI框架仍优先支持英伟达。但对于内存密集型工作负载——运行拥有长上下文窗口的大模型、无法上传到云端的敏感数据，或快速本地原型开发——在这个价位上几乎没有其他选择。

为什么是M3 Ultra而不是“M4 Ultra”？苹果未在M4 Max芯片上集成UltraFusion连接器，因此无法基于M4推出第四代Ultra。M3 Ultra因此暂时仍是苹果桌面AI芯片的旗舰产品。

正面交锋：性能、价格及各自优势领域

以下规格和价格为各产品发布时的数据（苹果产品为当前配置器价格）；完整来源见配套来源列表。

芯片	最佳用途	峰值算力	内存	大致成本定位	获取途径
英伟达 B200/GB300	前沿模型训练	约4.5 PFLOPs FP8（B200）	192GB HBM3e	高端	无处不在——AWS、Azure、GCP、本地部署
AWS Trainium 3	成本优化的云端训练与推理	约362 FP8 PFLOPs/UltraServer	每服务器144颗芯片	比等效GPU便宜约50%（客户报告）	仅限AWS
谷歌 TPU Ironwood	大规模推理与前沿训练	4,614 FP8 TFLOPs/芯片	192GB HBM3e	仅限云端；在系统经济性上竞争	仅限Google Cloud
苹果 M5/Pro/Max	设备端推理、创意AI、隐私优先应用	最高40核GPU（Pro/Max）；GPU AI性能为M4的4倍	基础32GB / Pro 64GB / Max 128GB	约1,599美元起（含设备）	任何Apple Store
苹果 M3 Ultra（Mac Studio）	本地运行大型LLM、隐私关键型工作负载	80核GPU，819 GB/s带宽	最高512GB统一内存	9,499–14,099美元	苹果官方直营

核心洞察：不存在“最佳”芯片

这些芯片各自在不同的战场上取胜：

从零训练一个前沿模型？英伟达仍然拥有最深厚的软件栈和最灵活的编程模型。
以低成本服务数十亿次API调用？Trainium和Ironwood在推理经济性方面越来越有竞争力。
在无网络的笔记本上运行AI？Apple Silicon（M5）自成一类。
在桌面上运行6710亿参数模型？Mac Studio M3 Ultra是极少数能胜任的消费级设备之一。

单一供应商依赖的时代已经结束。欢迎来到多芯片、多供应商的AI时代。

这对企业意味着什么

💰 更低成本，更好利润

如果你在规模化运行AI工作负载，算账方式突然变得完全不同。据AWS称，包括Anthropic、Karakuri、Metagenomi、NetoAI、Ricoh和Splash Music在内的客户正在通过Trainium削减训练和推理成本，部分报告节省高达约50%的成本。（如果你特别关注编码成本，我们在如何用Claude、Qwen和DeepSeek降低AI编码成本中详细介绍了更廉价的模型路由方案。）

对于一家每月在推理上投入5万美元的初创公司，50%的削减意味着每月增加2.5万美元——这笔钱可以投入到产品、招聘或延长跑道上。（说明性数字；实际节省高度依赖工作负载和模型。）

🚀 更快上市

更便宜、更易获取的计算资源压缩了迭代周期——从想法到功能上线的时间缩短。跨Trainium、TPU和GPU进行多元化的团队可以将每个工作负载匹配到最划算的硬件上，而非等待单一供应商。

🔓 供应商多元化

直到不久前，AI策略实际上就是“找到能买到的英伟达GPU就买”。现在，许多公司运行混合堆栈：在需要灵活性的地方用英伟达训练，在成本敏感的地方用Trainium或TPU推理，并将延迟敏感的功能下沉到Apple Silicon设备。Anthropic本身描述其跨AWS Trainium、谷歌TPU和英伟达GPU运行Claude，正是为了将每个工作负载匹配到最合适的芯片。

⚖️ 代价：新的锁定

Trainium只能在AWS上运行。TPU只能在Google Cloud上运行。选择定制芯片意味着选择云供应商——至少目前如此。节省是真实的，但战略依赖也是真实的。

这对用户意味着什么

⚡ 更快、更便宜、更好的AI应用

当推理成本下降，其影响会贯穿整个技术栈。我们的预期：

你已使用的应用中的AI功能将显著变快
免费层级将更加慷慨
高级订阅将以相同价格提供更强能力
全新类别的AI应用将出现，这些应用以前在经济上根本不可行

🔐 不妥协的隐私

这正是Apple Silicon改变格局的地方。直到最近，“AI功能”基本上意味着“你的数据会发送到某个服务器”。在M5这一代，你可以在笔记本上本地运行能力强大的模型——无需云端，无需遥测。而借助Mac Studio M3 Ultra，你可以在本地运行前沿级模型——DeepSeek R1的6710亿参数，全部在设备端。对于医院、律师事务所、投资银行或政府机构等数据主权不可妥协的领域，这是一次有意义的转变：AI永远不会离开建筑物。

如果你希望完全避免将文档发送到第三方服务器，我们的AnythingLLM实现私有本地AI操作指南与此硬件配合得很好。

🌍 更可持续的AI

Trainium 3的能效提升（据AWS称，比Trainium 2高4倍），加上TPU和Apple Silicon的效率飞跃，意味着更多的AI基础设施建设可以在每瓦特功耗下完成。在一个竞相建设吉瓦级数据中心的行业中，效率本身已成为一项竞争优势。

展望：到2028年谁会赢？

分析师的预测指向一个方向：定制ASIC正在快速增长。彭博行业研究预计，AI加速器芯片市场将以约16%的年增长率增长，到2033年达到约6040亿美元，其中定制ASIC细分市场增速（约27%）快于GPU。

英伟达的整体加速器份额预计将从接近90%下降，到2026年约为75%，随着AMD和超大规模ASIC的规模扩大——但其绝对收入仍在增长，因为市场扩张的速度超过任何单一对手能够攫取的速度。

这里有一个值得澄清的点。“两千亿美元”指的是AI加速器/芯片市场——即销售芯片的收入——而非AI总支出。对芯片市场的估计因定义和来源而异：Global Market Insights预计2025年约为1200亿美元，2026年升至约1550亿美元，而彭博行业研究将其基准定为2024年约1160亿美元。“2026年超过2000亿美元”的数字位于该范围的乐观端。

总AI基础设施支出要大数倍。分析师预计，大型云供应商2026年的资本支出规模约为6000亿美元，其中数千亿用于AI基础设施（仅微软就预计超过1500亿美元），超大规模企业的AI资本支出累计预计到2030年将超过3.5万亿美元。因此，如果“这场战争”指的是参战方投入的资金，那么这个数字远高于2000亿美元——2000亿美元特指他们购买的芯片。

实际上即将结束的，并非英伟达的主导地位，而是其垄断级别的定价权。这，才是定制芯片之所以重要的核心原因。

总结

我们正在实时见证自云计算兴起以来计算经济学中最剧烈的变革之一。

以下三个状况同时成立：

英伟达仍然占据主导地位——并将持续多年。
亚马逊、谷歌、微软和Meta的定制芯片正在从结构上侵蚀这种主导地位，尤其是在推理领域。
苹果正悄无声息地构建最具颠覆性的芯片故事之一：让云成为可选项。

赢家不会是“英伟达 vs. 其他”。而是那些学会自如驾驭多芯片世界的公司——以及用户，为合适的工作负载选择合适价格的正合适芯片。

2023–2024年的AI淘金热是关于以任何价格获取任何算力。而2026年正在上演的，是关于以合适价格获取智能算力。

同一场革命。新规则。

对于哪种芯片在你的技术栈中胜出，或者未来12个月你押注哪款芯片，有什么想法？欢迎留言——我们很想听听你如何应对这一转变。

资料来源

Amazon — "Trainium3 UltraServers Now Available" (re:Invent, Dec 2, 2025): https://press.aboutamazon.com/2025/12/trainium3-ultraservers-now-available-enabling-customers-to-train-and-deploy-ai-models-faster-at-lower-cost
Anthropic — "Anthropic and Amazon expand collaboration for up to 5 gigawatts" (Apr 2026): https://www.anthropic.com/news/anthropic-amazon-compute
AWS — "AWS activates Project Rainier" (Oct 29, 2025): https://www.aboutamazon.com/news/aws/aws-project-rainier-ai-trainium-chips-compute-cluster
Google — "Ironwood: The first Google TPU for the age of inference": https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/ironwood-tpu-age-of-inference/
Tom's Hardware — Ironwood vs Nvidia GB300 NVL72 (Nov 6, 2025): https://www.tomshardware.com/tech-industry/artificial-intelligence/google-deploys-new-axion-cpus-and-seventh-gen-ironwood-tpu-training-and-inferencing-pods-beat-nvidia-gb300-and-shape-ai-hypercomputer-model
Google Cloud — "Anthropic to Expand Use of Google Cloud TPUs" (Oct 23, 2025): https://www.googlecloudpresscorner.com/2025-10-23-Anthropic-to-Expand-Use-of-Google-Cloud-TPUs-and-Services
Anthropic — "Anthropic expands partnership with Google and Broadcom" (Apr 2026): https://www.anthropic.com/news/google-broadcom-partnership-compute
Apple Newsroom — "Apple unleashes M5" (Oct 2025): https://www.apple.com/newsroom/2025/10/apple-unleashes-m5-the-next-big-leap-in-ai-performance-for-apple-silicon/
TechCrunch — "Apple unveils M5 Pro and M5 Max chips with new 'Fusion Architecture'" (Mar 3, 2026): https://techcrunch.com/2026/03/03/apple-unveils-m5-pro-and-m5-max-chips-with-new-fusion-architecture/
MacRumors — Mac Studio M3 Ultra runs DeepSeek R1 (Mar 17, 2025): https://www.macrumors.com/2025/03/17/apples-m3-ultra-runs-deepseek-r1-efficiently/
Global Market Insights — AI Accelerator Chips Market: https://www.gminsights.com/industry-analysis/ai-accelerator-chips-market
Bloomberg Intelligence — AI accelerator market set to exceed $600B by 2033 (Jan 14, 2026): https://www.bloomberg.com/company/press/ai-accelerator-market-looks-set-to-exceed-600-billion-by-2033-driven-by-hyperscale-spending-and-asic-adoption-according-to-bloomberg-intelligence/

标签: AI benchmarks Apple Silicon Tensor Processing Unit (TPU)Trainium 大语言模型（LLM）