Como Amazon, Google, Apple e Nvidia estão disputando a alma da inteligência artificial — e o que isso significa para o seu bolso, seus aplicativos e sua privacidade
Atualização (7 de junho de 2026): Este artigo foi revisado para atribuir seus números a fontes nomeadas (veja a lista de fontes que acompanha o texto), para datar os números sensíveis ao tempo e para esclarecer que os “US$ 200 bilhões” do título se referem especificamente ao mercado de aceleradores/chips de IA — e não ao gasto total em infraestrutura de IA, que é várias vezes maior (veja “O Panorama”). Os números de especificações e preços são atuais nas datas indicadas; os dados de participação e tamanho de mercado são estimativas de terceiros que mudam com o tempo.
O Império Ataca… a Si Mesmo
Durante anos, havia apenas uma resposta para a pergunta “o que faz a IA rodar?” — Nvidia. Um único fornecedor, um único ecossistema e uma conta de tirar o fôlego no fim de cada trimestre.
Essa era está chegando ao fim.
Em 2026, o mercado de chips de IA se fragmentou numa guerra de quatro frentes entre as empresas mais valiosas do mundo, cada uma apostando bilhões na ideia de que consegue construir um silício mais sob medida para suas necessidades do que qualquer coisa que a Nvidia vende de prateleira. O resultado? IA mais barata, aplicativos mais rápidos e uma reconfiguração completa do mapa de poder da indústria de tecnologia.
Aqui está o que realmente está acontecendo — e por que isso deveria importar para você, seja você desenvolvedor, fundador de startup ou simplesmente alguém que usa o ChatGPT ou o Claude todos os dias.
Conheça os Competidores
🟢 Nvidia — A Campeã Reinante
Segundo a maioria das estimativas da indústria em 2025, a Nvidia ainda controla cerca de 80 a 90% do mercado de aceleradores de IA em faturamento, com participação em treinamento acima de 90%. Seu Blackwell B200 e a futura plataforma Rubin continuam sendo o padrão-ouro por um grande motivo: o CUDA, o ecossistema de software construído ao longo de duas décadas que todo pesquisador de IA conhece de cor.
Mas há uma rachadura na armadura: boa parte do faturamento de data centers da Nvidia vem de um punhado de hyperscalers — Google, Amazon, Microsoft e Meta — e todos os quatro agora estão construindo seus próprios chips justamente para reduzir essa dependência.
🟠 Amazon Trainium 3 — O Matador de Custos
Anunciado no AWS re:Invent 2025 e disponível ao público geral desde dezembro de 2025, o Trainium 3 é o primeiro chip de IA 3nm da AWS (fabricado pela TSMC). Ele se organiza em “Trn3 UltraServers” de até 144 chips por sistema, entregando 362 PFLOPs em FP8 com latência 4x menor que a geração anterior.
Os números que de fato importam para os clientes (segundo a AWS, em comparação com o Trainium 2):
- Até 4,4x mais desempenho de computação
- 4x mais eficiência energética
- Até ~50% menos custo em relação a configurações equivalentes de GPU (relatado por clientes)
- Milhares de UltraServers podem conectar até 1 milhão de chips Trainium — cerca de 10x a geração anterior
Sinal vindo dos clientes: a Anthropic — criadora do Claude — se comprometeu em abril de 2026 a gastar mais de US$ 100 bilhões em dez anos na AWS, garantindo até 5GW de capacidade, e agora roda mais de um milhão de chips Trainium 2 via Project Rainier para treinar e servir o Claude. A AWS também cita Karakuri, Metagenomi, NetoAI, Ricoh e Splash Music entre os primeiros clientes do Trainium 3.
Olhando para frente, a AWS já deu uma prévia do sucessor: segundo a empresa, o Trainium 4 entregará pelo menos 3x o desempenho em FP8 e 4x a largura de banda de memória do Trainium 3 — e, importante, terá suporte ao interconector NVLink Fusion da Nvidia, permitindo que os clientes misturem chips Trainium e Nvidia num único cluster. A previsão de chegada é por volta do fim de 2026 a 2027.
🔵 Google TPU Ironwood (v7) — A Fera da Inferência
A TPU de sétima geração do Google, a Ironwood, foi lançada no fim de 2025, e as especificações de destaque impressionam:
- 4.614 TFLOPs em FP8 por chip, com 192GB de memória HBM3e (6x a capacidade do Trillium)
- Escala para 9.216 chips num único superpod, entregando 42,5 ExaFLOPs em FP8 de computação
- No nível do pod, isso equivale a cerca de 118x a computação em FP8 do GB300 NVL72 da Nvidia, que o Tom’s Hardware reporta em 0,36 ExaFLOPS (42,5 ÷ 0,36 ≈ 118)
- ~2x melhor desempenho por watt que o Trillium, segundo o Google
A Anthropic anunciou em outubro de 2025 planos de acessar até 1 milhão de TPUs — um acordo que vale dezenas de bilhões de dólares — citando “forte custo-benefício e eficiência”. (Até abril de 2026, a Anthropic havia ampliado esse compromisso para cerca de 3,5GW de capacidade de TPU com Google e Broadcom.) Tradução: até uma fabricante de modelos fortemente treinada em CUDA está votando com o bolso.
🍎 Apple M5 — O Trunfo Escondido da IA na Borda
Eis o chip que ninguém comenta na conversa sobre hyperscalers, mas que deveria estar no centro dela: o Apple M5, lançado em outubro de 2025.
Ele não foi projetado para treinar modelos fundacionais de trilhões de parâmetros. Foi projetado para algo possivelmente ainda mais disruptivo — rodar IA diretamente no seu notebook, tablet ou óculos de realidade aumentada, sem enviar um único byte para a nuvem.
A família M5, segundo a Apple (as versões Pro e Max chegaram em março de 2026):
- Construída em 3nm de terceira geração (TSMC N3P)
- Um Acelerador Neural em cada núcleo da GPU — mais de 4x a computação de IA da GPU do M4
- A GPU vai de uma base M5 com 10 núcleos até um M5 Max com 40 núcleos (nova “Arquitetura Fusion” de dois dies)
- Neural Engine de 16 núcleos mais rápido
- Memória unificada: até 32GB (base), 64GB (Pro) ou 128GB (Max)
- Largura de banda de memória: 153GB/s (base), 307GB/s (Pro), 614GB/s (Max)
- M5 Ultra: ainda não anunciado — esperado em um futuro Mac Studio e, segundo rumores, deve chegar a 256GB, mas trate isso como uma expectativa, não como uma especificação confirmada
O resultado prático: com a geração M5, a inferência no próprio dispositivo — geração local de imagens e execução de LLMs de pequeno a médio porte sem precisar ir e voltar da nuvem — se torna genuinamente viável num notebook. (Para uma demonstração prática de como rodar modelos localmente no Apple Silicon, confira nosso guia sobre como rodar modelos abertos no seu Mac com o MLX.)
🖥️ Apple M3 Ultra Mac Studio — O Monstro dos LLMs Locais
Se o M5 é o trunfo escondido da IA na borda, o Mac Studio com M3 Ultra é a workstation de LLM local que, sem alarde, quebrou as regras do que é possível num desktop.
Lançado em março de 2025, este é o chip que fez a comunidade de desenvolvedores de IA olhar duas vezes. Por quê? Até 512GB de memória unificada com 819 GB/s de largura de banda — numa caixa menor que uma pilha de caixas de pizza, com preço a partir de menos de US$ 10.000.
As especificações que importam:
- CPU de 32 núcleos + GPU de 80 núcleos (a maior GPU que a Apple havia lançado até então)
- Até 512GB de memória unificada com 819 GB/s de largura de banda
- Portas Thunderbolt 5 para agrupar vários Mac Studios em pools de memória maiores
- Construído sobre o UltraFusion, conectando dois dies M3 Max num único SoC
- Preços (segundo o configurador atual da Apple): US$ 9.499 para a configuração de 512GB / SSD de 1TB, chegando a cerca de US$ 14.099 totalmente equipado
Eis o que o torna notável: o M3 Ultra é um dos pouquíssimos dispositivos de consumo capazes de rodar o DeepSeek R1 (671 bilhões de parâmetros) inteiramente de forma local. Em testes feitos pelo reviewer Dave Lee (Dave2D), reportados pelo MacRumors, a máquina rodou o modelo completo quantizado em 4 bits a cerca de 17 a 18 tokens por segundo — suficiente para muitos usos práticos, sem que uma única chamada de API saísse da máquina (foi preciso aumentar manualmente a alocação de VRAM e cerca de 448GB de memória para o modelo).
Compare isso com a alternativa (estimativa ilustrativa, considerando ~R$ 0,75/kWh e ~10 h/dia): para igualar os 512GB de memória unificada de um único Mac Studio usando hardware de consumo da Nvidia, você precisaria de cerca de 16 GPUs RTX 5090 (32GB cada) — um custo inicial muito mais alto e um consumo de energia da ordem de 40x maior. Para uma empresa que roda LLMs cerca de 10 horas por dia, isso representa aproximadamente a diferença entre uns poucos reais por mês e centenas de reais por mês só de eletricidade.
Onde está a pegadinha? A computação bruta de GPU por dólar ainda favorece a Nvidia em cargas de processamento em lote, e muitos frameworks de IA continuam priorizando a Nvidia. Mas para cargas limitadas por memória — rodar modelos enormes com janelas de contexto longas, dados sensíveis que não podem ir para a nuvem, ou prototipagem local rápida — há pouca coisa parecida nessa faixa de preço.
Por que o M3 Ultra e não um “M4 Ultra”? A Apple não incluiu os conectores UltraFusion no die do M4 Max, então um Ultra de quarta geração baseado no M4 não foi possível. Por isso, o M3 Ultra continuou sendo o chip de IA de desktop carro-chefe da Apple nesse meio-tempo.
Frente a Frente: Desempenho, Preço e Onde Cada Um Vence
As especificações e preços abaixo correspondem ao lançamento de cada produto / ao configurador atual da Apple; as fontes completas estão na lista de fontes que acompanha o texto.
| Chip | Melhor Em | Pico de Computação | Memória | Posição Aprox. de Custo | Onde Conseguir |
|---|---|---|---|---|---|
| Nvidia B200/GB300 | Treinamento de modelos de fronteira | ~4,5 PFLOPs FP8 (B200) | 192GB HBM3e | Premium | Em todo lugar — AWS, Azure, GCP, local |
| AWS Trainium 3 | Treinamento e inferência em nuvem com custo otimizado | ~362 PFLOPs FP8 / UltraServer | 144 chips por servidor | ~50% mais barato que equivalentes em GPU (relatado por clientes) | Só na AWS |
| Google TPU Ironwood | Inferência em escala massiva e treinamento de fronteira | 4.614 TFLOPs FP8/chip | 192GB HBM3e | Só na nuvem; compete pela economia de sistema | Só no Google Cloud |
| Apple M5 / Pro / Max | Inferência no dispositivo, IA criativa, apps com foco em privacidade | Até GPU de 40 núcleos (Pro/Max); 4x IA na GPU vs M4 | 32GB base / 64GB Pro / 128GB Max | A partir de ~US$ 1.599 (dispositivo incluído) | Qualquer Apple Store |
| Apple M3 Ultra (Mac Studio) | Rodar LLMs enormes localmente, cargas críticas em privacidade | GPU de 80 núcleos, 819 GB/s de largura de banda | Até 512GB de memória unificada | US$ 9.499–US$ 14.099 | Direto com a Apple |
O Insight Principal: Não Existe o “Melhor” Chip
Cada um desses chips vence uma batalha completamente diferente:
- Treinar um modelo de fronteira do zero? A Nvidia ainda tem a pilha de software mais robusta e o modelo de programação mais flexível.
- Servir bilhões de chamadas de API de forma barata? Trainium e Ironwood estão cada vez mais competitivos na economia de inferência.
- Rodar IA num notebook sem internet? O Apple Silicon (M5) está numa categoria à parte.
- Rodar um modelo de 671 bilhões de parâmetros na sua mesa? O Mac Studio M3 Ultra é uma das pouquíssimas máquinas de consumo capazes disso.
A era da dependência de um único fornecedor acabou. Bem-vindo à era multi-chip e multifornecedor da IA.
O Que Isso Significa para as Empresas
💰 Custos Menores, Margens Melhores
Se você roda cargas de IA em escala, a conta de repente fica muito diferente. Segundo a AWS, clientes como Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh e Splash Music estão cortando custos de treinamento e inferência com o Trainium, e alguns relatam economias de até ~50% em relação às alternativas em GPU. (Se os seus custos estão concentrados especificamente em programação, detalhamos o roteamento para modelos mais baratos em como reduzir custos de IA para programação com Claude, Qwen e DeepSeek.)
Para uma startup que queima US$ 50.000/mês em inferência, um corte de 50% pode significar US$ 25.000 de volta todo mês — dinheiro que vai para produto, contratações ou fôlego de caixa. (Exemplo ilustrativo; a economia real depende muito da carga de trabalho e do modelo.)
🚀 Lançamento Mais Rápido no Mercado
Computação mais barata e mais disponível encurta os ciclos de iteração — menos tempo entre a ideia e o recurso entregue. Equipes que diversificam entre Trainium, TPUs e GPUs conseguem casar cada carga de trabalho com o hardware mais barato adequado, em vez de ficar esperando por um único fornecedor.
🔓 Diversificação de Fornecedores
Até pouco tempo atrás, uma estratégia de IA era basicamente “compre quantas GPUs da Nvidia você conseguir encontrar”. Agora muitas empresas rodam pilhas híbridas: treinam na Nvidia quando a flexibilidade importa, fazem inferência no Trainium ou em TPUs quando o custo importa, e empurram recursos sensíveis à latência para dispositivos com Apple Silicon. A própria Anthropic descreve rodar o Claude em AWS Trainium, TPUs do Google e GPUs da Nvidia justamente para casar cada carga de trabalho com o chip mais adequado.
⚖️ A Pegadinha: Novos Aprisionamentos
O Trainium roda apenas na AWS. As TPUs rodam apenas no Google Cloud. Escolher um silício personalizado significa escolher uma nuvem — pelo menos por enquanto. A economia é real, mas a dependência estratégica também.
O Que Isso Significa para os Usuários
⚡ Apps de IA Mais Rápidos, Baratos e Melhores
Quando os custos de inferência caem, isso se propaga por toda a cadeia. O que esperamos:
- Os recursos de IA nos apps que você já usa ficam drasticamente mais rápidos
- Os planos gratuitos ficam mais generosos
- As assinaturas premium ficam mais poderosas pelo mesmo preço
- Surgem categorias inteiramente novas de apps de IA que simplesmente não eram economicamente viáveis de construir antes
🔐 Privacidade Sem Abrir Mão de Nada
É aqui que o Apple Silicon muda a conversa. Até pouco tempo atrás, “recurso de IA” significava basicamente “seus dados vão para um servidor em algum lugar”. Com a geração M5, você pode rodar modelos capazes localmente no seu notebook — sem nuvem, sem telemetria. E com o Mac Studio M3 Ultra, você pode rodar modelos de classe de fronteira localmente — os 671 bilhões de parâmetros do DeepSeek R1, no próprio dispositivo. Para um hospital, um escritório de advocacia, um banco de investimentos ou um órgão público onde a soberania dos dados não é opcional, isso representa uma mudança significativa: a IA nunca sai do prédio.
Se você prefere manter seus documentos totalmente fora de servidores de terceiros, nosso passo a passo do AnythingLLM para IA local e privada combina muito bem com esse hardware.
🌍 Uma IA Mais Sustentável
Os ganhos de eficiência energética do Trainium 3 (4x em relação ao Trainium 2, segundo a AWS), combinados com os saltos de eficiência da TPU e do Apple Silicon, significam que mais da construção da IA pode ser feita por watt. Numa indústria correndo para erguer data centers em escala de gigawatts, a eficiência virou um diferencial competitivo por si só.
O Panorama: Quem Vence até 2028?
As projeções dos analistas apontam numa única direção: os ASICs personalizados estão ganhando terreno rápido. A Bloomberg Intelligence projeta que o mercado de chips aceleradores de IA cresça cerca de 16% ao ano, chegando a aproximadamente US$ 604 bilhões até 2033, com o segmento de ASICs personalizados crescendo mais rápido (~27%) do que o de GPUs.
É amplamente esperado que a participação geral da Nvidia em aceleradores recue da casa dos quase 90% para cerca de 75% até 2026, conforme a AMD e os ASICs dos hyperscalers ganham escala — mas seu faturamento absoluto continua crescendo porque o mercado está se expandindo mais rápido do que qualquer rival isolado consegue capturar.
E aqui vale acertar a interpretação. “US$ 200 bilhões” se refere ao mercado de aceleradores/chips de IA — o faturamento com a venda do silício — e não ao gasto total com IA. As estimativas desse mercado de chips variam conforme a definição e a fonte: a Global Market Insights o estima em cerca de US$ 120 bilhões em 2025, subindo para ~US$ 155 bilhões em 2026, enquanto a Bloomberg Intelligence o fixou em ~US$ 116 bilhões em 2024. Um número de “mais de US$ 200 bilhões em 2026” fica no extremo otimista dessa faixa.
O gasto total em infraestrutura de IA é várias vezes maior. Os analistas esperam que os grandes provedores de nuvem gastem algo na ordem de US$ 600 bilhões em investimentos de capital em 2026, com centenas de bilhões disso indo para infraestrutura de IA (só a Microsoft está a caminho de US$ 150 bilhões ou mais), e o gasto acumulado de capital em IA dos hyperscalers é projetado para ultrapassar US$ 3,5 trilhões até 2030. Então, se “a batalha” significa o que os combatentes estão despejando nela, o número fica bem acima de US$ 200 bilhões — os US$ 200 bilhões são especificamente os chips que eles estão comprando.
O que de fato está chegando ao fim não é tanto a dominância da Nvidia, mas seu poder de precificação de nível monopolista. É isso, mais do que qualquer outra coisa, que torna o silício personalizado tão importante.
A Conclusão
Estamos assistindo, em tempo real, a uma das mudanças mais drásticas na economia da computação desde o próprio surgimento da nuvem.
Três coisas são verdadeiras ao mesmo tempo agora:
- A Nvidia ainda é dominante — e continuará assim por anos.
- O silício personalizado da Amazon, Google, Microsoft e Meta está corroendo estruturalmente essa dominância, especialmente na inferência.
- A Apple está, sem alarde, construindo uma das histórias de chip mais disruptivas de todas, ao tornar a nuvem opcional.
Os vencedores não serão “Nvidia contra todo o resto”. Serão as empresas — e os usuários — que aprenderem a navegar com fluência por esse mundo multi-chip, escolhendo o silício certo para a carga certa pelo preço certo.
A corrida do ouro da IA de 2023–2024 foi sobre conseguir qualquer computação a qualquer preço. A que está se desenrolando em 2026 é sobre conseguir computação inteligente pelo preço certo.
A mesma revolução. Regras novas.
Tem alguma opinião sobre qual chip está vencendo na sua stack? Ou em qual deles você está apostando para os próximos 12 meses? Deixe um comentário — adoraríamos saber como você está navegando por essa mudança.
Fontes
- Amazon — "Trainium3 UltraServers Now Available" (re:Invent, Dec 2, 2025): https://press.aboutamazon.com/2025/12/trainium3-ultraservers-now-available-enabling-customers-to-train-and-deploy-ai-models-faster-at-lower-cost
- Anthropic — "Anthropic and Amazon expand collaboration for up to 5 gigawatts" (Apr 2026): https://www.anthropic.com/news/anthropic-amazon-compute
- AWS — "AWS activates Project Rainier" (Oct 29, 2025): https://www.aboutamazon.com/news/aws/aws-project-rainier-ai-trainium-chips-compute-cluster
- Google — "Ironwood: The first Google TPU for the age of inference": https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/ironwood-tpu-age-of-inference/
- Tom's Hardware — Ironwood vs Nvidia GB300 NVL72 (Nov 6, 2025): https://www.tomshardware.com/tech-industry/artificial-intelligence/google-deploys-new-axion-cpus-and-seventh-gen-ironwood-tpu-training-and-inferencing-pods-beat-nvidia-gb300-and-shape-ai-hypercomputer-model
- Google Cloud — "Anthropic to Expand Use of Google Cloud TPUs" (Oct 23, 2025): https://www.googlecloudpresscorner.com/2025-10-23-Anthropic-to-Expand-Use-of-Google-Cloud-TPUs-and-Services
- Anthropic — "Anthropic expands partnership with Google and Broadcom" (Apr 2026): https://www.anthropic.com/news/google-broadcom-partnership-compute
- Apple Newsroom — "Apple unleashes M5" (Oct 2025): https://www.apple.com/newsroom/2025/10/apple-unleashes-m5-the-next-big-leap-in-ai-performance-for-apple-silicon/
- TechCrunch — "Apple unveils M5 Pro and M5 Max chips with new 'Fusion Architecture'" (Mar 3, 2026): https://techcrunch.com/2026/03/03/apple-unveils-m5-pro-and-m5-max-chips-with-new-fusion-architecture/
- MacRumors — Mac Studio M3 Ultra runs DeepSeek R1 (Mar 17, 2025): https://www.macrumors.com/2025/03/17/apples-m3-ultra-runs-deepseek-r1-efficiently/
- Global Market Insights — AI Accelerator Chips Market: https://www.gminsights.com/industry-analysis/ai-accelerator-chips-market
- Bloomberg Intelligence — AI accelerator market set to exceed $600B by 2033 (Jan 14, 2026): https://www.bloomberg.com/company/press/ai-accelerator-market-looks-set-to-exceed-600-billion-by-2033-driven-by-hyperscale-spending-and-asic-adoption-according-to-bloomberg-intelligence/





