Guía Práctica de LLMs Open-Weights 2026

🎧 Listen to this article

La Parte 2 desglosa la economía del dimensionamiento de los LLM modernos, así como los costos reales de memoria y cómputo que implica ejecutar los modelos actuales.

Dimensionamiento: denso vs MoE, y qué cuesta cada uno

Esta es la sección donde la mayoría se equivoca.

Los dos números de parámetros que importan

Cada LLM moderno tiene dos tamaños relevantes:

Parámetros totales — qué tan grande es el modelo en disco y en memoria. Determina la capacidad de hardware requerida.
Parámetros activos por token — cuántos parámetros realmente computan para cada token generado. Determina el throughput (tokens/seg) y el costo de energía.

Para modelos densos, estos números son iguales. Llama 3.3 70B usa los 70B para cada token.

Para MoE (Mixture of Experts), son muy diferentes. DeepSeek V4-Pro tiene 1.6T totales pero solo 49B activos por token. El modelo es enorme en memoria pero computa como un 49B para cada token generado. Ese es el punto entero de MoE — capacidad sin compute proporcional.

Implicaciones prácticas

	Denso	MoE
Memoria requerida	= parámetros totales × bytes/parámetro	= parámetros totales × bytes/parámetro (igual — todos los expertos deben estar cargados)
Throughput por GPU	proporcional a parámetros totales	proporcional a parámetros activos
Mejor para	comportamiento predecible, fine-tuning fácil, despliegue en una sola GPU	servir alto volumen, capacidad frontera sin compute frontera
Peor para	escalar capacidad más allá de lo que entra en una GPU	despliegue de un solo usuario a pequeña escala (pagas el costo total de memoria sin servir suficientes usuarios para amortizarlo)

Regla práctica: si tienes un usuario o pocos, los modelos densos te dan mejor calidad por GB de VRAM. Si estás sirviendo muchos usuarios concurrentes, MoE gana decisivamente porque pagas el costo de memoria una vez y sirves muchos requests a la velocidad de los parámetros activos.

La matemática de memoria

Memoria aproximada necesaria para cargar un modelo:

memoria ≈ parámetros × bytes_por_parámetro + KV cache + overhead

Bytes por parámetro:

Precisión	Bytes/parám	Calidad	Cuándo usar
FP16 / BF16	2	Referencia	Servir en producción sobre GPUs de datacenter
FP8	1	Cerca de referencia	Servir en producción moderno H100/H200
INT8	1	Pérdida mínima	Servir en producción cuando FP8 no está disponible
INT4 (Q4_K_M, AWQ, GPTQ)	0.5	Pequeña pero aceptable	El default para inferencia local
INT3 / INT2	0.25–0.4	Degradación notable	Último recurso para meter un modelo frontera en hardware de consumo

Suma 10–30% de overhead para KV cache (escala con la longitud de contexto) y runtime.

Caso especial — modelos con cuantización nativa como Kimi K2.6 son entrenados con cuantización (QAT), lo que significa que la inferencia INT4 es el despliegue intencionado, no un fallback degradado. La pérdida de calidad vs precisión completa es esencialmente cero.

Ejemplos calculados (modelos actuales)

Modelo	Params totales	Params activos	Memoria FP16	Memoria INT8	Memoria INT4
Gemma 4 9B	9B (denso)	9B	~18 GB	~9 GB	~5 GB
Mistral Small 3 24B	24B (denso)	24B	~48 GB	~24 GB	~12 GB
Qwen 3.5 27B	27B (denso)	27B	~54 GB	~27 GB	~14 GB
Qwen 3.6 35B-A3B (MoE)	35B	3B	~70 GB	~35 GB	~18 GB
Llama 3.3 70B	70B (denso)	70B	~140 GB	~70 GB	~35 GB
Llama 4 Scout (MoE)	109B	17B	~218 GB	~109 GB	~55 GB
Qwen 3.5 122B-A10B (MoE)	122B	10B	~244 GB	~122 GB	~61 GB
DeepSeek V4-Flash (MoE)	284B	13B	~568 GB	~284 GB	~142 GB
Llama 4 Maverick (MoE)	400B	17B	~800 GB	~400 GB	~200 GB
Qwen 3.5-397B-A17B (MoE)	397B	17B	~794 GB	~397 GB	~199 GB
Kimi K2.6 (MoE, INT4 nativo)	1T	32B	—	—	~500 GB (nativo)
DeepSeek V4-Pro (MoE)	1.6T	49B	~3.2 TB	~1.6 TB	~800 GB

Estos son solo pesos. Suma 10–30% encima para KV cache y overhead.

Parte 3 — Hardware: CUDA y MLX, números reales

Dos caminos viables en 2026: NVIDIA CUDA (el estándar de producción) y Apple MLX/Metal (la jugada de valor para inferencia de modelos grandes de un solo usuario). AMD está mejorando pero todavía no es una opción mainstream para servir LLMs en producción.

Nota sobre disponibilidad en LATAM: Las GPUs de datacenter (A100, H100, H200, B200) son difíciles y caras de conseguir directamente en la región. La realidad práctica para la mayoría de equipos LATAM es: alquilarlas en AWS São Paulo, GCP, Azure México, o proveedores especializados como Lambda Labs, RunPod, o Vast.ai. Costos de importación, aranceles, y tiempos de entrega para hardware on-prem hacen que la nube sea casi siempre más barata para empezar.

Tier 1 — GPU única de consumo (NVIDIA)

Hardware	VRAM	Qué corre (INT4)	Qué corre (FP16)	Uso realista
RTX 3060 12GB	12 GB	Hasta ~13B denso, Gemma 4 9B INT4	Hasta ~7B denso	Hobbyista, aprendizaje, máquina de desarrollo para modelos pequeños
RTX 4070 Ti / 5070 16GB	16 GB	Hasta ~22B denso, Gemma 4 9B FP16	Hasta ~8B denso	Asistente de código pequeño, agentes Gemma
RTX 4090 24GB	24 GB	Hasta ~34B denso, Qwen 3.6 35B-A3B	Hasta ~13B denso	El verdadero punto dulce para desarrolladores individuales
RTX 5090 32GB	32 GB	Hasta ~50B denso, Mistral Small FP8	Hasta ~16B denso	Más holgura, futuro-prueba la longitud de contexto

Ejemplos de throughput (RTX 4090):

Llama 3.3 70B Q4 — ~20–35 t/s
Qwen 3.6 35B-A3B Q4 — ~50–80 t/s (ventaja de MoE — solo 3B activos)
Mistral Small 24B Q4 — ~40–60 t/s

Escenarios reales de producción en este tier:

Desarrollador individual corriendo un asistente de código privado (Devstral 24B o Qwen 3.6 35B-A3B).
RAG interno de equipo pequeño sobre documentos de empresa (Llama 3.3 70B Q4).
Prototipo de startup antes de moverse a hardware de producción.
Workflows agénticos locales para power users (Gemma 4 9B con tool calling).

Tier 2 — Workstation multi-GPU de consumo

Hardware	VRAM	Qué corre	Uso realista
2× RTX 4090 (paralelismo de tensores en vLLM)	48 GB	Llama 3.3 70B FP8, Qwen 3.6 35B-A3B FP16	Servir en producción para equipo pequeño, experimentos de fine-tuning
2× RTX 5090	64 GB	70B en FP16, Llama 4 Scout en INT4	Servir local serio, despliegue MoE de tier medio
4× RTX 4090 / 5090	96–128 GB	Llama 4 Scout en FP8/FP16, Qwen 3.5 122B-A10B en INT4	Producción mono-tenant para herramienta interna

Advertencia: Las GPUs de consumo no están diseñadas para carga sostenida 24/7. El enfriamiento y la energía se vuelven problemas reales de ingeniería. Para cualquier cosa más allá de una sola workstation, considera GPUs de datacenter.

Escenarios reales de producción:

Tooling de IA interno para SaaS mediano de ~50–200 empleados.
Fine-tuning de un modelo 70B con LoRA / QLoRA.
Servidor de inferencia interno para un equipo de ingeniería de 5–20 personas.

Tier 3 — Apple Silicon (MLX / Metal)

Donde Apple es genuinamente competitivo — y donde la mayoría malentiende el intercambio.

La ventaja: memoria unificada. Una Mac Studio con 256GB de memoria unificada puede sostener modelos que de otra forma requerirían 4–8× H100s — a una fracción del precio (~10K USD para la Mac vs $80K+ para el equivalente en GPU). Importante para LATAM donde importar Macs es más barato y rápido que importar GPUs de datacenter de NVIDIA.

La trampa: menor throughput por request. Los cores de GPU de Apple tienen menor FLOPS bruto que NVIDIA de datacenter, y el stack de software de inferencia (MLX, llama.cpp Metal backend) todavía no iguala las optimizaciones de CUDA (variantes de FlashAttention, aceleración FP8, batching avanzado).

Hardware	Memoria unificada	Qué corre cómodo (INT4)	Uso realista
MacBook Pro M4 Max 36GB	36 GB	Hasta ~50B denso, Qwen 3.6 35B-A3B	Asistente de código de desarrollador individual
MacBook Pro M4 Max 64GB	64 GB	Llama 3.3 70B Q4, Qwen 3.5 122B-A10B Q4	Power user, demos, evaluación de modelos
Mac Studio M3 Ultra 96GB	96 GB	Llama 3.3 70B FP8, Llama 4 Scout INT4	Single-user pesado, asistente compartido en oficina pequeña
Mac Studio M3 Ultra 192GB	192 GB	Llama 4 Scout FP8, Llama 4 Maverick INT4, DeepSeek V4-Flash INT4	Inferencia de MoE frontera para un solo usuario
Mac Studio M4 Ultra 256–512GB	256+ GB	DeepSeek V4-Flash FP8, Kimi K2.6 INT4 nativo, V4-Pro con cuantización fuerte	Inferencia frontera local seria; la máquina del titular «corriendo modelos de 1T localmente»

Ejemplos de throughput (Mac Studio M3 Ultra, benchmarks reales):

Llama 3.3 70B Q4 — ~10–15 t/s (vs 20–35 en 4090, pero la Mac monta modelos mucho más grandes)
Qwen 3.6 35B-A3B Q4 — ~25–40 t/s; MLX corre aproximadamente 2× más rápido que Ollama en el mismo modelo — vale la pena saberlo
Kimi K2.6 INT4 nativo — t/s de un dígito pero corre, que es el punto
DeepSeek V4-Flash INT4 — ~5–10 t/s en máquinas de 192GB+

MLX vs llama.cpp en Apple Silicon: MLX (el framework nativo de Apple) da el mejor desempeño para muchos modelos — hasta 2× sobre llama.cpp Metal en Qwen 3.6 35B-A3B en benchmarks publicados. llama.cpp tiene soporte más amplio de modelos. La mayoría de la gente termina usando ambos según el modelo.

Escenarios reales de producción:

Desarrollador individual o equipo pequeño corriendo Llama 3.3 70B o Qwen 3.6 35B-A3B localmente para trabajo diario de código — la mejor relación precio/desempeño para este caso de uso en 2026.
Investigador evaluando modelos abiertos frontera sin acceso a datacenter.
Consultoría pequeña dando demos in situ de modelos grandes a clientes que requieren ver el modelo correr fuera de la nube.
Power user enfocado en privacidad corriendo un modelo frontera completamente offline.
La Mac Studio de 256GB+ específicamente para «demostrar Kimi K2.6 o DeepSeek V4-Flash en una sola máquina.»

Para qué NO sirve MLX: servir alta concurrencia. Si necesitas servir más de ~5 usuarios concurrentes, NVIDIA gana decisivamente.

Tier 4 — GPU única de datacenter

Hardware	VRAM	Qué corre (FP16)	Características de throughput
A100 80GB	80 GB	Llama 3.3 70B FP16, Mistral Large denso, Qwen 3.6 35B-A3B con contexto enorme	Caballo de batalla confiable; ~2× más lento que H100 pero más barato
H100 80GB	80 GB	Igual que A100 + soporte FP8 nativo; Llama 4 Scout INT4	Estándar de producción para modelos clase 70B
H200 141GB	141 GB	Llama 4 Scout FP16, Qwen 3.5 122B-A10B FP16, contextos muy largos	Mejor GPU única para MoE clase 100B
B200 (Blackwell)	192 GB	DeepSeek V4-Flash INT4, modelos MoE más grandes	Tier top actual; salto mayor de throughput sobre H100

Escenarios reales de producción:

Servir en producción para SaaS con cientos a miles de usuarios (vLLM + Llama 70B en H100).
Pipeline de procesamiento por lotes (extraer datos estructurados de millones de documentos).
Plataforma de IA interna empresarial sirviendo a miles de empleados.
Fine-tuning de modelos 7B–13B en precisión completa; LoRA en 70B.

Costo realista en LATAM: En la nube — $2–5 USD/hora dependiendo del proveedor. AWS São Paulo tiende a ser más caro que us-east. On-prem H100 — ~$25–40K USD por GPU más el servidor, sin contar aranceles e impuestos de importación que pueden agregar 20–40% en países como Argentina o Brasil.

Tier 5 — Cluster multi-GPU de datacenter

Configuración	VRAM total	Qué corre	Caso de uso
4× H100 / 2× H200	320–280 GB	Kimi K2.6 INT4 nativo, DeepSeek V4-Flash FP8, Llama 4 Maverick INT4	La nueva línea base de «modelo abierto frontera» en 2026
8× H100 (un nodo DGX)	640 GB	Llama 4 Maverick FP8, DeepSeek V4-Flash FP16, Kimi K2.6 FP8	Configuración estándar para «modelo abierto frontera en producción»
8× H200	1.1 TB	DeepSeek V4-Pro INT8, Kimi K2.6 FP16	Servir MoE frontera con calidad máxima
16× H100+ (multi-nodo, InfiniBand)	1.3 TB+	DeepSeek V4-Pro FP16, servir frontera con contexto muy largo	Servir hiperescala, proveedores de modelos

Escenarios reales de producción:

Auto-hospedar DeepSeek V4 para una empresa regulada (banco, hospital, gobierno).
Startup sirviendo un modelo abierto frontera como su propio producto API.
Plataforma de IA multi-tenant con miles de usuarios concurrentes.
Laboratorio de investigación corriendo inferencia frontera + experimentos de fine-tuning.

Parte 4 — Matriz rápida de decisión

Si tu situación es…	Elige este modelo	En este hardware
Dev individual, quiere asistente de código	Qwen 3.6 35B-A3B o Devstral 24B	RTX 4090 / Mac M4 Max 36GB+
Equipo pequeño, RAG interno sobre documentos	Llama 3.3 70B (Q4)	RTX 4090 / Mac Studio 96GB / H100 en nube
SaaS mediano, necesita auto-hospedar features de IA	Llama 3.3 70B o Qwen 3.6 35B-A3B	1× H100 con vLLM
Empresa con requisitos de soberanía de datos LATAM	Mistral Small / Medium o Qwen 3.6 35B-A3B	1× H100 o 2× RTX 5090, datacenter local
Producto multilingüe (LATAM + Asia)	Familia Qwen 3.5 / 3.6	Dimensionado a tu tráfico
Calidad open frontera, industria regulada (banca/salud/gobierno)	DeepSeek V4-Pro	Cluster 8× H200
Agente de programación frontera auto-hospedado	Kimi K2.6 (INT4 nativo)	4× H100 o 2× H200
Producto open de programación agéntica (startup)	Kimi K2.6 o DeepSeek V4-Flash	Single H100 DGX o proveedor hosted
Investigación de razonamiento/matemáticas	DeepSeek R1 o V4-Pro	8× H100 / H200
Agente local con tool calling con presupuesto ajustado	Gemma 4 9B	RTX 4070 Ti / Mac M3 Pro
Visión + texto en hardware de consumo	Gemma 4 9B (visión) o Llama 4 Scout	RTX 4090 / Mac M4 Max
Modelo frontera en una sola máquina para uso personal	Kimi K2.6 (INT4 nativo) o DeepSeek V4-Flash	Mac Studio M4 Ultra 256GB+
Exprimir máximo throughput de hardware NVIDIA	Variantes Nemotron	H100/H200/B200 con TensorRT-LLM
Contexto largo (>1M tokens)	Llama 4 Scout (10M) o DeepSeek V4 (1M)	Dimensionado al modelo

Parte 5 — Tres patrones que vale internalizar

1. MoE es para servir, denso es para que entre. ¿Corriendo un usuario en una máquina? Los modelos densos te dan más calidad por GB de memoria. ¿Sirviendo muchos usuarios? MoE gana porque la cantidad de parámetros activos define tu costo por token mientras que la cantidad de parámetros totales define tu cuenta única de memoria.

2. La Mac Studio es real, pero solo para inferencia de modelos grandes con un solo usuario. Una Mac Studio de 256GB corre modelos que costarían $80K+ USD en hardware NVIDIA, a velocidades de un solo usuario. Genuinamente útil para desarrolladores individuales, investigadores, consultorías pequeñas. Especialmente relevante en LATAM donde el costo y dificultad de importar GPUs de datacenter NVIDIA hace que la Mac sea una alternativa práctica seria. No es plataforma para servir en producción — para eso, NVIDIA gana en throughput, batching, y madurez de software. Usa MLX sobre llama.cpp cuando ambos soporten el modelo — speedups medibles de 2× en 2026.

3. La cuantización nativa cambia la matemática del despliegue. Kimi K2.6 sale en INT4 nativo. DeepSeek V4 sale en mezcla FP8 + FP4. Esto es un cambio importante respecto al mundo viejo donde la cuantización siempre era un intercambio de calidad-vs-encajar. Para modelos con cuantización nativa, INT4 es el despliegue intencionado — no estás cediendo nada. Espera más modelos siguiendo este patrón a lo largo de 2026.

Reflexión final

Los pesos abiertos en 2026 cubren todo el espectro de calidad. Ya no hay capacidad frontera que esté disponible solo detrás de una API cerrada — DeepSeek V4-Pro, Kimi K2.6, y Qwen 3.6 Max están todos a distancia de golpe de GPT-5 y Claude Opus en los benchmarks que importan para trabajo de producción. La pregunta real de ingeniería ya no es «abierto vs cerrado» — es «qué modelo abierto, a qué cuantización, en qué hardware, para qué workload.» Los números de esta guía te deberían dar suficiente para tomar esa decisión sin adivinar.

Para LATAM específicamente, el caso de auto-hospedar modelos open-weights es aún más fuerte que en otras regiones: regulaciones de soberanía de datos en cada país (LGPD, Ley 1581, LFPDPPP, Ley 25.326), volatilidad cambiaria que hace impredecibles los costos en USD de las APIs, y latencia desde datacenters norteamericanos que importa para experiencias de usuario. La estrategia ganadora típica es: empezar en API para validar producto, mover el volumen sostenido a auto-hospedaje en cuanto el gasto mensual justifique la inversión.

El ritmo va a continuar. Espera otra ola mayor de releases para finales del Q3 2026 — probablemente DeepSeek V4.x, Qwen 4, y un refresh de Llama 4.x. Los patrones arquitectónicos — economía de MoE, intercambios de cuantización, MLX vs CUDA, matriz de dimensionamiento-a-hardware — no van a cambiar. Construye tu sistema alrededor de los patrones, no de los nombres de modelos.

Etiquetas: Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemma 4 Kimi K2 Llama 4 Magistral Mistral MLX Modelos de Lenguaje Grandes (LLM)Nemotron Qwen

Guía Práctica de LLMs Open-Weights 2026 – Parte 2

Anthropic se ve obligada a cerrar Fable 5 y Mythos 5 tras una orden de exportación de EE. UU.

¿Qué es la programación agéntica? Cómo la IA escribe, prueba, depura y publica software

Guía Práctica de LLMs Open-Weights 2026 – Parte 2

Equipo Editorial de Aplicar.AI

Historias relacionadas

Deja de pagar precios premium: cómo reducir los costos de programación con IA usando Claude, Qwen y DeepSeek

Qwen, la IA china de código abierto que está cambiando las reglas del juego

Guía práctica de AnythingLLM: instalación, uso y casos de uso reales

Cómo correr los modelos abiertos Nemotron de NVIDIA en tu Mac con MLX

Anthropic lanzó la primera certificación oficial de Claude. ¿Vale la pena para los devs de LATAM?

Deja una respuesta Cancelar la respuesta

Aprender & Aplicar IA

Entradas recientes

Categorías

¡Bienvenido de vuelta!

Recuperar contraseña