Cómo Amazon, Google, Apple y Nvidia están peleando por el futuro de la inteligencia artificial — y qué significa para tu bolsillo, tus apps y tu privacidad
Actualización (7 de junio de 2026): Este artículo fue revisado para atribuir sus cifras a fuentes identificadas (ver la lista de fuentes complementaria), para fechar los números sensibles al tiempo, y para aclarar que los «$200 mil millones» del titular se refieren específicamente al mercado de aceleradores/chips de IA — no al gasto total en infraestructura de IA, que es varias veces mayor (ver «Las perspectivas»). Las especificaciones y precios están vigentes a las fechas indicadas; los números de participación de mercado y tamaño de mercado son estimaciones de terceros que cambian con el tiempo.
El Imperio se Ataca a Sí Mismo
Durante años, la respuesta a «¿qué impulsa la IA?» era siempre la misma: Nvidia. Un solo proveedor, un solo ecosistema, una factura que hacía doler la cabeza al final de cada trimestre.
Esa época está llegando a su fin.
En 2026, el mercado de chips para IA se ha roto en una guerra de cuatro frentes entre las empresas más valiosas del mundo, cada una apostando miles de millones a que puede diseñar silicio más ajustado a sus necesidades que cualquier cosa que Nvidia vende en serie. ¿El resultado? IA más barata, apps más rápidas y un rediseño total del mapa de poder de la industria tecnológica.
Acá te contamos qué está pasando de verdad — y por qué debería importarte, seas desarrollador, fundador de startup, o simplemente alguien que usa ChatGPT o Claude todos los días.
Los Contendientes
🟢 Nvidia — El Campeón Vigente
Según la mayoría de los estimados de la industria para 2025, Nvidia todavía controla aproximadamente el 80–90% del mercado de aceleradores de IA por ingresos, con una participación en entrenamiento superior al 90%. Su Blackwell B200 y la próxima plataforma Rubin siguen siendo el estándar de oro por una razón principal: CUDA, el ecosistema de software con dos décadas de madurez que todo investigador de IA conoce de memoria.
Pero hay una grieta en la armadura: gran parte de los ingresos de Nvidia en centros de datos viene de un puñado de gigantes tecnológicos — Google, Amazon, Microsoft y Meta — y los cuatro están construyendo sus propios chips precisamente para reducir esa dependencia.
🟠 Amazon Trainium 3 — El Asesino de Costos
Anunciado en AWS re:Invent 2025 y disponible de forma general desde diciembre de 2025, Trainium 3 es el primer chip de IA de AWS en proceso de 3nm (TSMC). Se integra en «Trn3 UltraServers» de hasta 144 chips por sistema, entregando 362 FP8 PFLOPs con una latencia 4 veces menor que la generación anterior.
Los números que importan a los clientes (según AWS, vs. Trainium 2):
- Hasta 4,4x más rendimiento de cómputo
- 4x mayor eficiencia energética
- Hasta ~50% menos costo comparado con configuraciones equivalentes de GPU (reportado por clientes)
- Miles de UltraServers pueden conectar hasta 1 millón de chips Trainium — aproximadamente 10x la generación anterior
Señal del mercado: Anthropic — la empresa detrás de Claude — se comprometió en abril de 2026 a gastar más de $100 mil millones en diez años en AWS, asegurando hasta 5GW de capacidad, y ya opera más de un millón de chips Trainium 2 a través del Proyecto Rainier para entrenar y servir a Claude. AWS también menciona a Karakuri, Metagenomi, NetoAI, Ricoh y Splash Music entre los primeros clientes de Trainium 3.
Mirando hacia adelante, AWS ya adelantó su sucesor: según AWS, Trainium 4 entregará al menos 3x el rendimiento FP8 y 4x el ancho de banda de memoria de Trainium 3 — y, de forma notable, soportará el interconector NVLink Fusion de Nvidia, permitiendo a los clientes mezclar chips Trainium y Nvidia en un mismo clúster. Se espera para finales de 2026–2027.
🔵 Google TPU Ironwood (v7) — La Bestia de Inferencia
La TPU de séptima generación de Google, Ironwood, se lanzó a finales de 2025 y sus especificaciones de cabecera son impresionantes:
- 4.614 FP8 TFLOPs por chip con 192GB de memoria HBM3e (6x la capacidad de Trillium)
- Escala a 9.216 chips en un solo superpod entregando 42,5 FP8 ExaFLOPs de cómputo
- A nivel de pod, eso es aproximadamente 118x el cómputo FP8 del Nvidia GB300 NVL72, que Tom’s Hardware reporta en 0,36 ExaFLOPS (42,5 ÷ 0,36 ≈ 118)
- ~2x mejor rendimiento por vatio que Trillium, según Google
Anthropic anunció en octubre de 2025 planes para acceder a hasta 1 millón de TPUs — un acuerdo valuado en decenas de miles de millones de dólares — citando «excelente relación precio-rendimiento y eficiencia». (A abril de 2026, Anthropic había ampliado este compromiso a aproximadamente 3,5GW de capacidad de TPUs con Google y Broadcom.) En otras palabras: incluso un fabricante de modelos fuertemente entrenado en CUDA está votando con su billetera.
🍎 Apple M5 — El Durmiente de la IA en el Borde
Este es el chip del que nadie habla en la conversación de los grandes proveedores de nube, pero debería: el Apple M5, lanzado en octubre de 2025.
No está diseñado para entrenar modelos fundacionales de billones de parámetros. Está diseñado para algo posiblemente más disruptivo — ejecutar IA directamente en tu laptop, tablet o visor, sin enviar ni un solo byte a la nube.
La familia M5, según Apple (el Pro y Max llegaron en marzo de 2026):
- Fabricado en proceso de 3nm de tercera generación (TSMC N3P)
- Un Acelerador Neural en cada núcleo de GPU — más de 4x el cómputo de GPU de IA del M4
- GPU que va desde 10 núcleos en el M5 base hasta 40 núcleos en el M5 Max (nueva «Arquitectura Fusion» de doble chip)
- Neural Engine de 16 núcleos más rápido
- Memoria unificada: hasta 32GB (base), 64GB (Pro) o 128GB (Max)
- Ancho de banda de memoria: 153GB/s (base), 307GB/s (Pro), 614GB/s (Max)
- M5 Ultra: aún no anunciado — se espera en un futuro Mac Studio y se rumora que alcanzará 256GB, pero trátalo como una expectativa, no como una especificación confirmada
La conclusión práctica: con la generación M5, la inferencia en el dispositivo — generación local de imágenes y ejecución de LLMs pequeños y medianos sin pasar por la nube — se vuelve genuinamente útil en una laptop. (Para una guía práctica sobre cómo correr modelos localmente en Apple Silicon, revisa nuestra guía para ejecutar modelos abiertos Nemotron en tu Mac con MLX.)
🖥️ Apple M3 Ultra Mac Studio — El Monstruo Local de LLMs
Si el M5 es el durmiente de la IA en el borde, el Mac Studio con M3 Ultra es la estación de trabajo para LLMs locales que rompió silenciosamente las reglas de lo que es posible en un computador de escritorio.
Lanzado en marzo de 2025, este es el chip que hizo que la comunidad de desarrolladores de IA se detuviera a mirar dos veces. ¿Por qué? Hasta 512GB de memoria unificada con 819 GB/s de ancho de banda — en una caja más pequeña que una pila de cajas de pizza, desde menos de $10.000 dólares.
Las especificaciones que importan:
- CPU de 32 núcleos + GPU de 80 núcleos (la GPU más grande que Apple había lanzado hasta ese momento)
- Hasta 512GB de memoria unificada con 819 GB/s de ancho de banda
- Puertos Thunderbolt 5 para conectar varios Mac Studios en pools de memoria más grandes
- Construido sobre UltraFusion, uniendo dos chips M3 Max en un solo SoC
- Precios (según el configurador actual de Apple): $9.499 para la configuración de 512GB / 1TB SSD, hasta ~$14.099 con todo incluido
Lo que lo hace extraordinario: el M3 Ultra es uno de los pocos dispositivos de consumo que puede ejecutar DeepSeek R1 (671 mil millones de parámetros) completamente de forma local. En pruebas realizadas por el reseñador Dave Lee (Dave2D), reportadas por MacRumors, la máquina corrió el modelo completo cuantizado a 4 bits a aproximadamente 17–18 tokens por segundo — suficiente para muchos usos prácticos, sin que una sola llamada a la API saliera de la máquina (requirió elevar manualmente la asignación de VRAM y ~448GB de memoria para el modelo).
Compara eso con la alternativa (estimación ilustrativa, asumiendo ~$0,12/kWh y ~10 hrs/día): para igualar los 512GB de memoria unificada de un Mac Studio con hardware de consumo de Nvidia necesitarías aproximadamente 16 GPUs RTX 5090 (32GB cada una) — un costo inicial mucho mayor y alrededor de 40x el consumo energético. Para una empresa que ejecuta LLMs ~10 horas al día, eso es la diferencia entre ~$10/mes y varios cientos de dólares/mes solo en electricidad.
¿El punto débil? El cómputo bruto de GPU por dólar todavía favorece a Nvidia para cargas de trabajo en lote, y muchos frameworks de IA siguen priorizando Nvidia. Pero para cargas de trabajo limitadas por memoria — ejecutar modelos masivos con ventanas de contexto largas, datos sensibles que no pueden ir a la nube, o prototipado local rápido — hay muy pocas opciones comparables a este precio.
¿Por qué el M3 Ultra y no un «M4 Ultra»? Apple no incluyó los conectores UltraFusion en el chip M4 Max, así que un Ultra de cuarta generación basado en M4 no fue posible. El M3 Ultra se ha mantenido como el chip de escritorio insignia de Apple para IA en el ínterin.
Cara a Cara: Rendimiento, Precio y Dónde Gana Cada Uno
Las especificaciones y precios a continuación corresponden al lanzamiento de cada producto / el configurador actual de Apple; las fuentes completas están en la lista de fuentes complementaria.
| Chip | Su fuerte | Cómputo pico | Memoria | Posición de costo aprox. | Dónde conseguirlo |
|---|---|---|---|---|---|
| Nvidia B200/GB300 | Entrenamiento de modelos frontera | ~4,5 PFLOPs FP8 (B200) | 192GB HBM3e | Premium | En todas partes — AWS, Azure, GCP, on-prem |
| AWS Trainium 3 | Entrenamiento e inferencia en nube a bajo costo | ~362 FP8 PFLOPs / UltraServer | 144 chips por servidor | ~50% más barato que equivalentes GPU (reportado por clientes) | Solo en AWS |
| Google TPU Ironwood | Inferencia a gran escala y entrenamiento de frontera | 4.614 FP8 TFLOPs/chip | 192GB HBM3e | Solo en nube; compite en economía de sistema | Solo en Google Cloud |
| Apple M5 / Pro / Max | Inferencia en dispositivo, IA creativa, apps con privacidad | GPU de hasta 40 núcleos (Pro/Max); 4x GPU AI vs M4 | 32GB base / 64GB Pro / 128GB Max | Desde ~$1.599 (dispositivo incluido) | Cualquier tienda Apple |
| Apple M3 Ultra (Mac Studio) | Ejecutar LLMs masivos localmente, cargas con datos sensibles | GPU de 80 núcleos, 819 GB/s de ancho de banda | Hasta 512GB de memoria unificada | $9.499–$14.099 | Apple directo |
La clave: no existe el chip «mejor»
Cada uno de estos chips gana una batalla completamente diferente:
- ¿Entrenando un modelo de frontera desde cero? Nvidia sigue teniendo el stack de software más profundo y el modelo de programación más flexible.
- ¿Sirviendo miles de millones de llamadas a la API a bajo costo? Trainium e Ironwood son cada vez más competitivos en economía de inferencia.
- ¿Corriendo IA en una laptop sin internet? Apple Silicon (M5) está en una categoría propia.
- ¿Ejecutando un modelo de 671 mil millones de parámetros en tu escritorio? El Mac Studio M3 Ultra es una de las pocas máquinas de consumo que puede hacerlo.
La era de depender de un solo proveedor terminó. Bienvenido a la era de la IA multi-chip y multi-proveedor.
Qué Significa Esto para las Empresas
💰 Menores Costos, Mejores Márgenes
Si estás corriendo cargas de trabajo de IA a escala, los números de repente lucen muy distintos. Según AWS, clientes como Anthropic, Karakuri, Metagenomi, NetoAI, Ricoh y Splash Music están reduciendo costos de entrenamiento e inferencia con Trainium, con algunos reportando ahorros de hasta ~50% frente a alternativas de GPU. (Si tus costos están específicamente en programación con IA, desglosamos estrategias de enrutamiento de modelos más económicos en cómo reducir costos de IA para código con Claude, Qwen y DeepSeek.)
Para una startup que quema $50.000/mes en inferencia, un recorte del 50% son potencialmente $25.000 de vuelta cada mes — plata que va a producto, contrataciones o runway. (Ilustrativo; los ahorros reales dependen mucho de la carga de trabajo y el modelo.)
🚀 Más Velocidad para Lanzar al Mercado
El cómputo más barato y más disponible comprime los ciclos de iteración — menos tiempo entre la idea y la función lanzada. Los equipos que diversifican entre Trainium, TPUs y GPUs pueden asignar cada carga de trabajo al hardware más económico que le sirva, en vez de depender de un solo proveedor.
🔓 Diversificación de Proveedores
Hasta hace poco, una estrategia de IA equivalía básicamente a «comprar las GPU de Nvidia que puedas conseguir». Hoy muchas empresas operan stacks híbridos: entrenando en Nvidia donde importa la flexibilidad, haciendo inferencia en Trainium o TPUs donde importa el costo, y llevando las funciones más sensibles a la latencia al silicio de Apple. La propia Anthropic describe cómo ejecuta Claude en AWS Trainium, TPUs de Google y GPUs de Nvidia precisamente para asignar cada carga de trabajo al chip más adecuado.
⚖️ La Trampa: Nuevas Dependencias
Trainium solo corre en AWS. Las TPUs solo corren en Google Cloud. Elegir silicio personalizado significa elegir una nube — al menos por ahora. Los ahorros son reales, pero también lo es la dependencia estratégica.
Qué Significa Esto para los Usuarios
⚡ Apps de IA Más Rápidas, Baratas y Potentes
Cuando los costos de inferencia bajan, ese efecto se multiplica por toda la cadena. Nuestra expectativa:
- Las funciones de IA en las apps que ya usas se vuelven notablemente más rápidas
- Los planes gratuitos se vuelven más generosos
- Las suscripciones de pago se vuelven más capaces al mismo precio
- Surgen categorías enteras de apps de IA que antes simplemente no eran viables económicamente
🔐 Privacidad Sin Concesiones
Acá es donde Apple Silicon cambia la conversación. Hasta hace poco, «función de IA» básicamente significaba «tus datos van a un servidor en algún lugar». Con la generación M5, puedes correr modelos capaces directamente en tu laptop — sin nube, sin telemetría. Y con el Mac Studio M3 Ultra, puedes ejecutar modelos de clase frontera localmente — los 671 mil millones de parámetros de DeepSeek R1, en tu propio equipo. Para un hospital, un bufete de abogados, una entidad financiera o una entidad gubernamental donde la soberanía de los datos no es opcional, eso es un cambio significativo: la IA nunca sale del edificio.
Si prefieres mantener tus documentos completamente fuera de servidores de terceros, nuestra guía de AnythingLLM para IA privada y local complementa perfectamente este hardware.
🌍 Una IA Más Sostenible
Las mejoras en eficiencia energética de Trainium 3 (4x vs Trainium 2, según AWS), combinadas con los saltos de eficiencia en TPU y Apple Silicon, significan que más del desarrollo de IA puede hacerse por vatio. En una industria que se apresura a construir centros de datos de escala gigavatio, la eficiencia se ha convertido en una ventaja competitiva por derecho propio.
Las Perspectivas: ¿Quién Gana para 2028?
Las proyecciones de los analistas apuntan en una sola dirección: los ASICs personalizados están ganando terreno rápido. Bloomberg Intelligence proyecta que el mercado de chips aceleradores de IA crecerá a un ritmo de ~16% anual hasta alcanzar aproximadamente $604 mil millones para 2033, con el segmento de ASICs personalizados creciendo más rápido (~27%) que las GPU.
Se espera ampliamente que la participación de Nvidia en aceleradores baje desde el rango alto de los 80% hacia aproximadamente 75% para 2026 a medida que AMD y los ASICs de los grandes proveedores de nube escalan — pero sus ingresos absolutos siguen creciendo porque el mercado se expande más rápido de lo que cualquier rival puede capturar.
Y acá está la parte que vale la pena entender bien. «$200 mil millones» se refiere al mercado de chips/aceleradores de IA — los ingresos por venta del silicio — no al gasto total en IA. Las estimaciones de ese mercado de chips varían según la definición y la fuente: Global Market Insights lo sitúa cerca de $120 mil millones en 2025, subiendo a ~$155 mil millones en 2026, mientras Bloomberg Intelligence lo ancló en ~$116 mil millones en 2024. Una cifra de «más de $200 mil millones en 2026» está en el extremo optimista de ese rango.
El gasto total en infraestructura de IA es varias veces mayor. Los analistas esperan que los grandes proveedores de nube gasten del orden de $600 mil millones en inversión de capital en 2026, con cientos de miles de millones de ese total destinados a infraestructura de IA (solo Microsoft va camino a superar los $150 mil millones), y el gasto acumulado en capex de IA por parte de los hiperescaladores proyectado en más de $3,5 billones hasta 2030. Así que si «la batalla» se mide por lo que los competidores están invirtiendo, el número está muy por encima de los $200 mil millones — los $200 mil millones son específicamente los chips que están comprando.
Lo que realmente está terminando no es tanto el dominio de Nvidia como su poder de fijación de precios de nivel monopólico. Eso, más que cualquier otra cosa, es lo que hace que el silicio personalizado importe.
La Conclusión
Estamos siendo testigos, en tiempo real, de uno de los cambios más dramáticos en la economía de la computación desde el surgimiento de la nube.
Tres cosas son simultáneamente ciertas hoy:
- Nvidia sigue siendo dominante — y lo seguirá siendo por años.
- El silicio personalizado de Amazon, Google, Microsoft y Meta está erosionando estructuralmente ese dominio, especialmente en inferencia.
- Apple está construyendo silenciosamente una de las historias de chips más disruptivas de todas al hacer que la nube sea opcional.
Los ganadores no serán «Nvidia contra todos los demás». Serán las empresas — y los usuarios — que aprendan a navegar este mundo multi-chip con fluidez, eligiendo el silicio adecuado para la carga de trabajo adecuada al precio adecuado.
La fiebre del oro de la IA en 2023–2024 era conseguir cualquier cómputo a cualquier precio. La que se está desarrollando en 2026 es conseguir el cómputo inteligente al precio correcto.
La misma revolución. Nuevas reglas.
¿Tienes opinión sobre qué chip está ganando en tu stack? ¿O en cuál estás apostando para los próximos 12 meses? Déjanos tu comentario — nos encantaría saber cómo estás navegando este cambio.
Fuentes
- Amazon — "Trainium3 UltraServers Now Available" (re:Invent, Dec 2, 2025): https://press.aboutamazon.com/2025/12/trainium3-ultraservers-now-available-enabling-customers-to-train-and-deploy-ai-models-faster-at-lower-cost
- Anthropic — "Anthropic and Amazon expand collaboration for up to 5 gigawatts" (Apr 2026): https://www.anthropic.com/news/anthropic-amazon-compute
- AWS — "AWS activates Project Rainier" (Oct 29, 2025): https://www.aboutamazon.com/news/aws/aws-project-rainier-ai-trainium-chips-compute-cluster
- Google — "Ironwood: The first Google TPU for the age of inference": https://blog.google/innovation-and-ai/infrastructure-and-cloud/google-cloud/ironwood-tpu-age-of-inference/
- Tom's Hardware — Ironwood vs Nvidia GB300 NVL72 (Nov 6, 2025): https://www.tomshardware.com/tech-industry/artificial-intelligence/google-deploys-new-axion-cpus-and-seventh-gen-ironwood-tpu-training-and-inferencing-pods-beat-nvidia-gb300-and-shape-ai-hypercomputer-model
- Google Cloud — "Anthropic to Expand Use of Google Cloud TPUs" (Oct 23, 2025): https://www.googlecloudpresscorner.com/2025-10-23-Anthropic-to-Expand-Use-of-Google-Cloud-TPUs-and-Services
- Anthropic — "Anthropic expands partnership with Google and Broadcom" (Apr 2026): https://www.anthropic.com/news/google-broadcom-partnership-compute
- Apple Newsroom — "Apple unleashes M5" (Oct 2025): https://www.apple.com/newsroom/2025/10/apple-unleashes-m5-the-next-big-leap-in-ai-performance-for-apple-silicon/
- TechCrunch — "Apple unveils M5 Pro and M5 Max chips with new 'Fusion Architecture'" (Mar 3, 2026): https://techcrunch.com/2026/03/03/apple-unveils-m5-pro-and-m5-max-chips-with-new-fusion-architecture/
- MacRumors — Mac Studio M3 Ultra runs DeepSeek R1 (Mar 17, 2025): https://www.macrumors.com/2025/03/17/apples-m3-ultra-runs-deepseek-r1-efficiently/
- Global Market Insights — AI Accelerator Chips Market: https://www.gminsights.com/industry-analysis/ai-accelerator-chips-market
- Bloomberg Intelligence — AI accelerator market set to exceed $600B by 2033 (Jan 14, 2026): https://www.bloomberg.com/company/press/ai-accelerator-market-looks-set-to-exceed-600-billion-by-2033-driven-by-hyperscale-spending-and-asic-adoption-according-to-bloomberg-intelligence/






