• Más reciente
Open-Weights LLMs 2026

Guía Práctica de LLMs Open-Weights 2026

mayo 9, 2026
Anthropic Claude Training

Por qué deberías hacer el entrenamiento oficial de Claude (y qué vas a sacar realmente de él)

mayo 9, 2026
The Silicon Showdown: Inside the $200 Billion Battle Reshaping AI

El Duelo del Silicio: La Batalla de $200 Mil Millones que Está Redefiniendo la IA

mayo 8, 2026
AI News
  • Inicio
  • Noticias de IA
  • IA Vídeo
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Agéntica
  • Código con IA
  • Utilidades IA
  • Proveedores de IA
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • Alibaba
    • MiniMax
  • Código Abierto
  • Glosario de IA
  • Español
    • English
    • Español
    • Português
    • 中文 (中国)
Sin resultados
Ver todos los resultados
SAVED POSTS
AI News
  • Inicio
  • Noticias de IA
  • IA Vídeo
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Agéntica
  • Código con IA
  • Utilidades IA
  • Proveedores de IA
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • Alibaba
    • MiniMax
  • Código Abierto
  • Glosario de IA
  • Español
    • English
    • Español
    • Português
    • 中文 (中国)
Sin resultados
Ver todos los resultados
aplicar.AI
Sin resultados
Ver todos los resultados
Inicio IA Local
Open-Weights LLMs 2026

Open-Weights LLMs 2026

Guía Práctica de LLMs Open-Weights 2026

Aplicar.AI por Aplicar.AI
mayo 9, 2026
en IA Local, Alibaba, Amazon AWS, Apple, Cómputo de IA, DeepSeek, MiniMax, Mistral AI, Moonshot AI, NVIDIA
0
1
COMPARTIDOS
10
VISTAS
Compartir por correoCompartir por WhatsAppCompartir en Facebook
  • EnglishEnglish
  • EspañolEspañol
  • PortuguêsPortuguês
  • 中文 (中国)中文 (中国)
🎧 Listen to this articleYour browser does not support the audio element.

Cómo elegir, dimensionar y desplegar modelos de pesos abiertos en producción: qué modelo para qué tarea, de qué tamaño, y sobre qué hardware — cubriendo CUDA y MLX.

Actualizado a mayo de 2026 — refleja la ola de lanzamientos de abril 2026 (DeepSeek V4, Qwen 3.6, Kimi K2.6).


Por qué solo modelos open-weights

Las APIs cerradas son fáciles. Pagas la cuenta, recibes la respuesta. La ingeniería interesante — y donde está la mayor parte de los malentendidos — está del lado de los pesos abiertos, donde realmente tienes que pensar en cantidad de parámetros, arquitectura MoE, cuantización, VRAM, y si tu Mac Studio realmente puede correr ese modelo de 1.6T que alguien tuiteó.

Esta guía cubre solo modelos de pesos abiertos. Todos los modelos descritos abajo se pueden descargar, correr en tu propio hardware, y enviar dentro de un producto sin pagar por token. El intercambio es que tienes que entender el hardware. De eso trata la mayor parte de esta guía.

Una nota sobre actualidad: la frontera de open-weights se mueve rápido — tres de los modelos más importantes en esta guía (DeepSeek V4, Qwen 3.6, Kimi K2.6) salieron dentro de una sola ventana de 30 días en abril 2026. Los números de versión específicos van a seguir cambiando. Los patrones arquitectónicos y el dimensionamiento de hardware no.


Parte 1 — Los modelos open-weights que importan en 2026

Hay aproximadamente 7 familias de modelos que vale la pena conocer para trabajo de producción real. Cualquier cosa que no esté en esta lista es un artefacto de investigación o una variante más pequeña de una de estas.


DeepSeek — Familia V4 (lanzada el 24 de abril de 2026)

DeepSeek V4 es la frontera actual de open-weights. Dos variantes lanzadas simultáneamente, ambas bajo licencia MIT, ambas con contexto de 1M de tokens. El cambio arquitectónico principal es la atención híbrida CSA + HCA (Compressed Sparse Attention + Heavily Compressed Attention), que reduce los FLOPs de inferencia a ~27% de V3.2 y la ocupación de KV cache a ~10% en contextos de 1M.

Tamaños que realmente usas:

  • DeepSeek V4-Pro (MoE, 49B activos / 1.6T totales) — clase frontera, compite con Claude Opus y GPT-5 en programación y razonamiento.
  • DeepSeek V4-Flash (MoE, 13B activos / 284B totales) — rápido, eficiente, ejecutable en una configuración multi-GPU que la mayoría de equipos pueden costear.
  • DeepSeek R1 (aún mantenido, MoE 37B/671B) — predecesor afinado para razonamiento; sigue siendo relevante si ya estás desplegado con él o quieres una opción de razonamiento frontera más pequeña.

Licencia: MIT. Tan limpia como puede ser.

Casos de uso reales:

  1. «GPT-5 privado» auto-hospedado para una empresa regulada — un banco mexicano (Banorte, Banamex), una EPS colombiana, un hospital chileno, una fintech brasileña sujeta a LGPD, o una entidad gubernamental sujeta a soberanía de datos. V4-Pro sobre 8× H200 en un datacenter privado es la respuesta estándar en 2026 cuando no puedes mandar datos a APIs cerradas pero necesitas calidad frontera.
  2. Pipeline de revisión de código a alto volumen. V4-Flash procesa pull requests, code review, sugerencias de refactorización, herramientas de migración automatizada. Con 13B parámetros activos, el throughput por GPU es excelente y el costo por token es despreciable después del hardware.
  3. Análisis de documentos largos a escalas que hace seis meses solo eran posibles vía API. El contexto de 1M de V4 con el nuevo mecanismo de atención realmente funciona en rangos largos (el KV cache no explota). Útil para due diligence legal, revisión de literatura científica, análisis de bases de código completas.
  4. Inferencia barata vía la API de DeepSeek si no quieres auto-hospedar. V4-Flash a $0.14/M de tokens de entrada es ~18× más barato que el flagship de GPT-5 y suficientemente bueno para la mayoría del trabajo de producción.
  5. Base frontera para fine-tunes propietarios. La licencia MIT hace el fine-tuning comercial legalmente limpio — importante para SaaS verticales que quieren construir un modelo defendible sobre una base abierta.

Realidad de hardware: V4-Pro a precisión completa necesita un cluster de 8× H100/H200. V4-Flash entra cómodo en 2–4× H100 a FP8, o un Mac Studio de gama alta con cuantización fuerte para inferencia de un solo usuario. La mayoría de equipos van a usar V4-Pro vía API y auto-hospedar V4-Flash si necesitan control.


Moonshot — Kimi K2.6 (lanzado abril 2026)

Kimi K2.6 es el modelo open-weights más fuerte para programación a mediados de 2026 — top de cada benchmark relevante para tareas de programación autónoma de largo horizonte. INT4 QAT nativo (entrenamiento consciente de cuantización), lo que significa que está específicamente construido para correr cuantizado sin pérdida de calidad. Incluye capacidad de «agent swarm» — puede orquestar hasta 300 sub-agentes en paralelo.

Tamaños que realmente usas:

  • Kimi K2.6 (MoE, 32B activos / 1T totales) — INT4 nativo, capacidad visual, contexto de 256K.
  • Kimi K2.5 (predecesor) — aún ampliamente desplegado, más barato de hospedar.

Licencia: MIT Modificada (libre para casi todo uso comercial; atribución requerida arriba de 100M MAU o $20M de ingresos mensuales).

Casos de uso reales:

  1. Productos de programación agéntica en producción (alternativas open-source a Cursor / Devin). K2.6 es el modelo detrás de varios de estos en 2026. Economía competitiva contra APIs cerradas para startups de IA con respaldo VC.
  2. Code review y análisis de PR auto-hospedado sobre bases de código empresariales. La cuantización INT4 nativa es crítica aquí — obtienes calidad de programación frontera con materialmente menos hardware del que requiere V4-Pro.
  3. Tareas autónomas de largo horizonte — Moonshot demostró K2.6 ejecutando 4,000+ llamadas a herramientas a lo largo de 12+ horas para completar un proyecto real de ingeniería. Útil para trabajo agéntico nocturno por lotes (migraciones de bases de código, refactors a gran escala, generación de documentación).
  4. Bases de código políglotas (Rust + Go + Python + frontend + DevOps). K2.6 generaliza entre lenguajes mejor que la mayoría de modelos especializados en código, que tienden a ser muy enfocados en Python.
  5. Apps donde desplegar capacidad frontera de programación en tu propio hardware es ventaja competitiva — software de defensa, sistemas de trading financiero, firmware de dispositivos médicos. El código mismo es la propiedad intelectual y no puede salir del edificio.

Realidad de hardware: El INT4 nativo significa que K2.6 es genuinamente desplegable en 4× H100 o 2× H200, lo cual es mucho más accesible que V4-Pro. Cuantización fuerte corre en un Mac Studio de 256GB para inferencia de un solo usuario.


Alibaba — Familia Qwen 3.5 / 3.6

La familia abierta más completa. Cubre cada clase de tamaño desde sub-1B hasta flagships MoE de 1T. Qwen 3.5 (febrero 2026) fue el lanzamiento generacional principal; Qwen 3.6 (marzo-abril 2026) es el refresh enfocado en programación agéntica encima. Ambas líneas están activamente mantenidas.

Tamaños que realmente usas (mezcla Qwen 3.5 / 3.6):

  • Qwen 3.5 4B / 9B / 27B (denso) — todoterreno fuertes. El 9B específicamente saca 81.7 en GPQA Diamond, sin precedente para modelos sub-30B.
  • Qwen 3.6 27B (denso) — refresh del 27B con mejor programación agéntica.
  • Qwen 3.6 35B-A3B (MoE, 3B activos / 35B totales) — el punto dulce de throughput de todo el ecosistema open en 2026. Calidad de 35B a velocidad de clase 3B.
  • Qwen 3.5 122B-A10B (MoE, 10B activos / 122B totales) — corre en una Mac de 64GB.
  • Qwen 3.5-397B-A17B flagship (MoE, 17B activos / 397B totales) — clase frontera.
  • Qwen 3.6-Max-Preview — actualmente solo API, no open-weight; se menciona solo porque las derivadas open-weight de 3.6 fluyen de él.

Licencia: Apache 2.0 para tamaños hasta ~30B; personalizada (utilizable comercialmente) para los flagships más grandes.

Casos de uso reales:

  1. Soporte multilingüe para productos globales. Qwen maneja mandarín, japonés, coreano, indonesio, vietnamita, hindi, árabe, portugués (importante para operaciones que cubren Brasil) y español a calidad que Llama no puede igualar. La opción por defecto para cualquier producto LATAM con expansión a Asia.
  2. Backend de chat de alto throughput con presupuesto de latencia ajustado. Qwen 3.6 35B-A3B sirve 3–5× más usuarios concurrentes por GPU que alternativas densas de 30B porque solo 3B parámetros están activos por token. La mejor relación precio/desempeño para servir en producción en 2026.
  3. Programación agéntica local sobre Apple Silicon. Qwen 3.6 35B-A3B corre cómodo en una MacBook Pro M-series de 64GB vía MLX. Esta combinación (MLX + 35B-A3B MoE) se está volviendo el setup estándar para desarrolladores individuales.
  4. Despliegue on-prem para empresas con requerimientos de soberanía de datos — se puede correr completamente desconectado del internet, cumpliendo con regulaciones locales de protección de datos (LGPD en Brasil, Ley 1581 en Colombia, Ley 25.326 en Argentina, LFPDPPP en México).
  5. Base de fine-tuning para SaaS verticales. Los tamaños Qwen 3.5 4B–14B son las bases de fine-tuning más costo-efectivas del ecosistema — suficientemente pequeñas para fine-tunear en una sola GPU, suficientemente capaces para enviar a producción.
  6. Despliegue en edge. Los tamaños Qwen 3.5 0.8B y 2B corren en celulares y dispositivos IoT — útil para funciones de IA offline en apps móviles.

Meta — Familia Llama 4

La línea open más soportada del mundo. Cada framework de inferencia, librería de fine-tuning e integración de herramientas soporta Llama primero. Llama 4 introdujo MoE (Scout + Maverick) y multimodalidad nativa. Llama 3.3 70B sigue siendo el caballo de batalla denso; Llama 4 Behemoth (288B activos / ~2T totales) fue anunciado como modelo maestro pero no ha sido liberado como open-weights.

Tamaños que realmente usas:

  • Llama 3.3 70B (denso) — sigue siendo el 70B abierto más desplegado en producción.
  • Llama 4 Scout (MoE, 17B activos / 109B totales, 16 expertos) — entra en una sola H100 con cuantización INT4, contexto de 10M tokens.
  • Llama 4 Maverick (MoE, 17B activos / 400B totales, 128 expertos) — entra en un solo host H100 DGX (8× H100), contexto 1M, multimodal nativo.

Licencia: Llama 4 Community License. Permisiva para la mayoría de usuarios; requiere licencia especial arriba de 700M MAU. No disponible para empresas domiciliadas en la UE a inicios de 2026 — esto es un detalle importante a verificar en la licencia actual antes de usar Llama 4 en cualquier despliegue cross-border desde LATAM.

Casos de uso reales:

  1. Asistente interno de empresa entrenado sobre tu wiki/documentación. Un fine-tune con LoRA de Llama 3.3 70B sobre documentación interna, servido vía vLLM en una sola H100, le da a cada empleado un equivalente privado de ChatGPT. El patrón de despliegue Llama más común en empresas medianas y grandes en LATAM.
  2. RAG multimodal sobre bibliotecas de documentos (PDFs con diagramas, formularios escaneados, gráficas). La comprensión de imágenes nativa de Llama 4 Scout + contexto de 10M maneja esto en un solo modelo. Caso típico: archivo histórico de actas notariales, expedientes médicos digitalizados, repositorios de diseño de ingeniería.
  3. Workflows de documentos largos — análisis de bases de código completas, procesamiento de documentos del tamaño de un libro, memoria conversacional de múltiples sesiones. El contexto de 10M de Scout es genuinamente útil aquí.
  4. SaaS multi-tenant donde necesitas auto-hospedar. Llama es la opción abierta más segura porque cada dependencia que necesitas (vLLM, TGI, Ollama, llama.cpp, MLX) lo soporta desde el día cero.
  5. Equipos de fine-tuning que necesitan máximo soporte de librerías. Llama es la base de fine-tuning más documentada y soportada del ecosistema.

Mistral

El laboratorio insignia europeo. Pragmático, bien licenciado, enfocado en código. Menos hype que DeepSeek o Kimi, más confiabilidad.

Tamaños que realmente usas:

  • Mistral Small 3 (~24B denso) — eficiente, buena obediencia a instrucciones.
  • Mistral Medium / Large 3 — flagships densos y MoE clase frontera.
  • Codestral / Devstral — especializados en código; Devstral está afinado para programación agéntica multi-archivo.
  • Magistral (~24B razonamiento) — modelo abierto de razonamiento.

Licencia: Apache 2.0 para la mayoría de releases.

Casos de uso reales:

  1. Chatbot on-prem cumpliendo con regulaciones de protección de datos — particularmente útil cuando el cliente requiere modelo de origen no-chino (algunos sectores en defensa, banca y gobierno tienen estos requisitos).
  2. Herramienta de programación agéntica que edita múltiples archivos. Devstral está hecho específicamente para esto — es el modelo detrás de varias alternativas open-source a Cursor.
  3. Backend de function-calling para features de producto. Los modelos Mistral son confiables para salida estructurada en JSON sin necesidad de prompting exótico. Común en features tipo «lenguaje natural → consulta estructurada».
  4. Procesamiento de documentos en español, portugués, francés donde Mistral tiene una ventaja medible sobre Qwen en variantes europeas del español.
  5. Asistente de programación local barato en una sola GPU. Devstral 24B en una GPU de 24GB corre cómodo y maneja tareas reales de refactorización.

Google — Familia Gemma

La respuesta abierta de Google a Llama y Qwen. Apache 2.0, tamaños desde ~1B hasta ~30B, con visión y tool calling en la última generación.

Tamaños que realmente usas:

  • Gemma 4 9B — modelo pequeño fuerte con visión + tool calling.
  • Gemma 4 27B — denso de tamaño medio; buena obediencia a instrucciones.

Licencia: Apache 2.0.

Casos de uso reales:

  1. Agente local con tool calling sobre hardware modesto. Gemma 4 9B en una GPU de 16GB maneja function calling de forma confiable — bueno para asistentes de escritorio, extensiones de navegador, automatización ligera.
  2. Pipeline de extracción de visión + texto sin pagar precios de API — leer screenshots, extraer datos de gráficas, procesar formularios escaneados (usos típicos: digitalización de archivos, automatización de back-office en aseguradoras).
  3. Despliegue en edge o on-device para apps móviles, kioscos, dispositivos industriales. Gemma es la familia abierta más optimizada para esto.
  4. Apps donde Apache 2.0 es legalmente requerida. Algunos procesos de procurement gubernamental y distribuciones OSS requieren específicamente una licencia aprobada por OSI. Gemma y Mistral son las opciones más limpias.
  5. Workloads sobre Google Cloud / Vertex AI donde Gemma tiene soporte de infraestructura de primera clase.

NVIDIA — Familia Nemotron

Los releases abiertos de NVIDIA, principalmente para mostrar lo que su stack de entrenamiento e inferencia puede hacer. Vale considerarlo si ya estás profundamente invertido en CUDA/TensorRT/NeMo.

Tamaños que realmente usas:

  • Nemotron Nano (~4B–9B) — razonamiento eficiente.
  • Nemotron Cascade / Ultra — variantes MoE más grandes afinadas para razonamiento.

Licencia: Varía por release; mayormente open-weight permisiva.

Casos de uso reales:

  1. Inferencia en producción exprimiendo cada token/seg de H100/H200/B200. Nemotron está co-diseñado con TensorRT-LLM y da throughput medible mejor que Llama/Qwen equivalente en el mismo hardware NVIDIA.
  2. Workloads de razonamiento sobre NVIDIA NIM microservices — si tu equipo de plataforma estandarizó en NIM, Nemotron es el camino de menor resistencia.
  3. Equipos de fine-tuning que ya usan NVIDIA NeMo. Quedarse dentro de un solo toolchain vale mucho operacionalmente.

Parte 2 — Dimensionamiento: denso vs MoE, y qué cuesta cada uno

Esta es la sección donde la mayoría se equivoca.

Los dos números de parámetros que importan

Cada LLM moderno tiene dos tamaños relevantes:

  • Parámetros totales — qué tan grande es el modelo en disco y en memoria. Determina la capacidad de hardware requerida.
  • Parámetros activos por token — cuántos parámetros realmente computan para cada token generado. Determina el throughput (tokens/seg) y el costo de energía.

Para modelos densos, estos números son iguales. Llama 3.3 70B usa los 70B para cada token.

Para MoE (Mixture of Experts), son muy diferentes. DeepSeek V4-Pro tiene 1.6T totales pero solo 49B activos por token. El modelo es enorme en memoria pero computa como un 49B para cada token generado. Ese es el punto entero de MoE — capacidad sin compute proporcional.

Implicaciones prácticas

DensoMoE
Memoria requerida= parámetros totales × bytes/parámetro= parámetros totales × bytes/parámetro (igual — todos los expertos deben estar cargados)
Throughput por GPUproporcional a parámetros totalesproporcional a parámetros activos
Mejor paracomportamiento predecible, fine-tuning fácil, despliegue en una sola GPUservir alto volumen, capacidad frontera sin compute frontera
Peor paraescalar capacidad más allá de lo que entra en una GPUdespliegue de un solo usuario a pequeña escala (pagas el costo total de memoria sin servir suficientes usuarios para amortizarlo)

Regla práctica: si tienes un usuario o pocos, los modelos densos te dan mejor calidad por GB de VRAM. Si estás sirviendo muchos usuarios concurrentes, MoE gana decisivamente porque pagas el costo de memoria una vez y sirves muchos requests a la velocidad de los parámetros activos.

La matemática de memoria

Memoria aproximada necesaria para cargar un modelo:

memoria ≈ parámetros × bytes_por_parámetro + KV cache + overhead

Bytes por parámetro:

PrecisiónBytes/parámCalidadCuándo usar
FP16 / BF162ReferenciaServir en producción sobre GPUs de datacenter
FP81Cerca de referenciaServir en producción moderno H100/H200
INT81Pérdida mínimaServir en producción cuando FP8 no está disponible
INT4 (Q4_K_M, AWQ, GPTQ)0.5Pequeña pero aceptableEl default para inferencia local
INT3 / INT20.25–0.4Degradación notableÚltimo recurso para meter un modelo frontera en hardware de consumo

Suma 10–30% de overhead para KV cache (escala con la longitud de contexto) y runtime.

Caso especial — modelos con cuantización nativa como Kimi K2.6 son entrenados con cuantización (QAT), lo que significa que la inferencia INT4 es el despliegue intencionado, no un fallback degradado. La pérdida de calidad vs precisión completa es esencialmente cero.

Ejemplos calculados (modelos actuales)

ModeloParams totalesParams activosMemoria FP16Memoria INT8Memoria INT4
Gemma 4 9B9B (denso)9B~18 GB~9 GB~5 GB
Mistral Small 3 24B24B (denso)24B~48 GB~24 GB~12 GB
Qwen 3.5 27B27B (denso)27B~54 GB~27 GB~14 GB
Qwen 3.6 35B-A3B (MoE)35B3B~70 GB~35 GB~18 GB
Llama 3.3 70B70B (denso)70B~140 GB~70 GB~35 GB
Llama 4 Scout (MoE)109B17B~218 GB~109 GB~55 GB
Qwen 3.5 122B-A10B (MoE)122B10B~244 GB~122 GB~61 GB
DeepSeek V4-Flash (MoE)284B13B~568 GB~284 GB~142 GB
Llama 4 Maverick (MoE)400B17B~800 GB~400 GB~200 GB
Qwen 3.5-397B-A17B (MoE)397B17B~794 GB~397 GB~199 GB
Kimi K2.6 (MoE, INT4 nativo)1T32B——~500 GB (nativo)
DeepSeek V4-Pro (MoE)1.6T49B~3.2 TB~1.6 TB~800 GB

Estos son solo pesos. Suma 10–30% encima para KV cache y overhead.


Parte 3 — Hardware: CUDA y MLX, números reales

Dos caminos viables en 2026: NVIDIA CUDA (el estándar de producción) y Apple MLX/Metal (la jugada de valor para inferencia de modelos grandes de un solo usuario). AMD está mejorando pero todavía no es una opción mainstream para servir LLMs en producción.

Nota sobre disponibilidad en LATAM: Las GPUs de datacenter (A100, H100, H200, B200) son difíciles y caras de conseguir directamente en la región. La realidad práctica para la mayoría de equipos LATAM es: alquilarlas en AWS São Paulo, GCP, Azure México, o proveedores especializados como Lambda Labs, RunPod, o Vast.ai. Costos de importación, aranceles, y tiempos de entrega para hardware on-prem hacen que la nube sea casi siempre más barata para empezar.

Tier 1 — GPU única de consumo (NVIDIA)

HardwareVRAMQué corre (INT4)Qué corre (FP16)Uso realista
RTX 3060 12GB12 GBHasta ~13B denso, Gemma 4 9B INT4Hasta ~7B densoHobbyista, aprendizaje, máquina de desarrollo para modelos pequeños
RTX 4070 Ti / 5070 16GB16 GBHasta ~22B denso, Gemma 4 9B FP16Hasta ~8B densoAsistente de código pequeño, agentes Gemma
RTX 4090 24GB24 GBHasta ~34B denso, Qwen 3.6 35B-A3BHasta ~13B densoEl verdadero punto dulce para desarrolladores individuales
RTX 5090 32GB32 GBHasta ~50B denso, Mistral Small FP8Hasta ~16B densoMás holgura, futuro-prueba la longitud de contexto

Ejemplos de throughput (RTX 4090):

  • Llama 3.3 70B Q4 — ~20–35 t/s
  • Qwen 3.6 35B-A3B Q4 — ~50–80 t/s (ventaja de MoE — solo 3B activos)
  • Mistral Small 24B Q4 — ~40–60 t/s

Escenarios reales de producción en este tier:

  • Desarrollador individual corriendo un asistente de código privado (Devstral 24B o Qwen 3.6 35B-A3B).
  • RAG interno de equipo pequeño sobre documentos de empresa (Llama 3.3 70B Q4).
  • Prototipo de startup antes de moverse a hardware de producción.
  • Workflows agénticos locales para power users (Gemma 4 9B con tool calling).

Tier 2 — Workstation multi-GPU de consumo

HardwareVRAMQué correUso realista
2× RTX 4090 (paralelismo de tensores en vLLM)48 GBLlama 3.3 70B FP8, Qwen 3.6 35B-A3B FP16Servir en producción para equipo pequeño, experimentos de fine-tuning
2× RTX 509064 GB70B en FP16, Llama 4 Scout en INT4Servir local serio, despliegue MoE de tier medio
4× RTX 4090 / 509096–128 GBLlama 4 Scout en FP8/FP16, Qwen 3.5 122B-A10B en INT4Producción mono-tenant para herramienta interna

Advertencia: Las GPUs de consumo no están diseñadas para carga sostenida 24/7. El enfriamiento y la energía se vuelven problemas reales de ingeniería. Para cualquier cosa más allá de una sola workstation, considera GPUs de datacenter.

Escenarios reales de producción:

  • Tooling de IA interno para SaaS mediano de ~50–200 empleados.
  • Fine-tuning de un modelo 70B con LoRA / QLoRA.
  • Servidor de inferencia interno para un equipo de ingeniería de 5–20 personas.

Tier 3 — Apple Silicon (MLX / Metal)

Donde Apple es genuinamente competitivo — y donde la mayoría malentiende el intercambio.

La ventaja: memoria unificada. Una Mac Studio con 256GB de memoria unificada puede sostener modelos que de otra forma requerirían 4–8× H100s — a una fracción del precio (~10K USD para la Mac vs $80K+ para el equivalente en GPU). Importante para LATAM donde importar Macs es más barato y rápido que importar GPUs de datacenter de NVIDIA.

La trampa: menor throughput por request. Los cores de GPU de Apple tienen menor FLOPS bruto que NVIDIA de datacenter, y el stack de software de inferencia (MLX, llama.cpp Metal backend) todavía no iguala las optimizaciones de CUDA (variantes de FlashAttention, aceleración FP8, batching avanzado).

HardwareMemoria unificadaQué corre cómodo (INT4)Uso realista
MacBook Pro M4 Max 36GB36 GBHasta ~50B denso, Qwen 3.6 35B-A3BAsistente de código de desarrollador individual
MacBook Pro M4 Max 64GB64 GBLlama 3.3 70B Q4, Qwen 3.5 122B-A10B Q4Power user, demos, evaluación de modelos
Mac Studio M3 Ultra 96GB96 GBLlama 3.3 70B FP8, Llama 4 Scout INT4Single-user pesado, asistente compartido en oficina pequeña
Mac Studio M3 Ultra 192GB192 GBLlama 4 Scout FP8, Llama 4 Maverick INT4, DeepSeek V4-Flash INT4Inferencia de MoE frontera para un solo usuario
Mac Studio M4 Ultra 256–512GB256+ GBDeepSeek V4-Flash FP8, Kimi K2.6 INT4 nativo, V4-Pro con cuantización fuerteInferencia frontera local seria; la máquina del titular «corriendo modelos de 1T localmente»

Ejemplos de throughput (Mac Studio M3 Ultra, benchmarks reales):

  • Llama 3.3 70B Q4 — ~10–15 t/s (vs 20–35 en 4090, pero la Mac monta modelos mucho más grandes)
  • Qwen 3.6 35B-A3B Q4 — ~25–40 t/s; MLX corre aproximadamente 2× más rápido que Ollama en el mismo modelo — vale la pena saberlo
  • Kimi K2.6 INT4 nativo — t/s de un dígito pero corre, que es el punto
  • DeepSeek V4-Flash INT4 — ~5–10 t/s en máquinas de 192GB+

MLX vs llama.cpp en Apple Silicon: MLX (el framework nativo de Apple) da el mejor desempeño para muchos modelos — hasta 2× sobre llama.cpp Metal en Qwen 3.6 35B-A3B en benchmarks publicados. llama.cpp tiene soporte más amplio de modelos. La mayoría de la gente termina usando ambos según el modelo.

Escenarios reales de producción:

  • Desarrollador individual o equipo pequeño corriendo Llama 3.3 70B o Qwen 3.6 35B-A3B localmente para trabajo diario de código — la mejor relación precio/desempeño para este caso de uso en 2026.
  • Investigador evaluando modelos abiertos frontera sin acceso a datacenter.
  • Consultoría pequeña dando demos in situ de modelos grandes a clientes que requieren ver el modelo correr fuera de la nube.
  • Power user enfocado en privacidad corriendo un modelo frontera completamente offline.
  • La Mac Studio de 256GB+ específicamente para «demostrar Kimi K2.6 o DeepSeek V4-Flash en una sola máquina.»

Para qué NO sirve MLX: servir alta concurrencia. Si necesitas servir más de ~5 usuarios concurrentes, NVIDIA gana decisivamente.

Tier 4 — GPU única de datacenter

HardwareVRAMQué corre (FP16)Características de throughput
A100 80GB80 GBLlama 3.3 70B FP16, Mistral Large denso, Qwen 3.6 35B-A3B con contexto enormeCaballo de batalla confiable; ~2× más lento que H100 pero más barato
H100 80GB80 GBIgual que A100 + soporte FP8 nativo; Llama 4 Scout INT4Estándar de producción para modelos clase 70B
H200 141GB141 GBLlama 4 Scout FP16, Qwen 3.5 122B-A10B FP16, contextos muy largosMejor GPU única para MoE clase 100B
B200 (Blackwell)192 GBDeepSeek V4-Flash INT4, modelos MoE más grandesTier top actual; salto mayor de throughput sobre H100

Escenarios reales de producción:

  • Servir en producción para SaaS con cientos a miles de usuarios (vLLM + Llama 70B en H100).
  • Pipeline de procesamiento por lotes (extraer datos estructurados de millones de documentos).
  • Plataforma de IA interna empresarial sirviendo a miles de empleados.
  • Fine-tuning de modelos 7B–13B en precisión completa; LoRA en 70B.

Costo realista en LATAM: En la nube — $2–5 USD/hora dependiendo del proveedor. AWS São Paulo tiende a ser más caro que us-east. On-prem H100 — ~$25–40K USD por GPU más el servidor, sin contar aranceles e impuestos de importación que pueden agregar 20–40% en países como Argentina o Brasil.

Tier 5 — Cluster multi-GPU de datacenter

ConfiguraciónVRAM totalQué correCaso de uso
4× H100 / 2× H200320–280 GBKimi K2.6 INT4 nativo, DeepSeek V4-Flash FP8, Llama 4 Maverick INT4La nueva línea base de «modelo abierto frontera» en 2026
8× H100 (un nodo DGX)640 GBLlama 4 Maverick FP8, DeepSeek V4-Flash FP16, Kimi K2.6 FP8Configuración estándar para «modelo abierto frontera en producción»
8× H2001.1 TBDeepSeek V4-Pro INT8, Kimi K2.6 FP16Servir MoE frontera con calidad máxima
16× H100+ (multi-nodo, InfiniBand)1.3 TB+DeepSeek V4-Pro FP16, servir frontera con contexto muy largoServir hiperescala, proveedores de modelos

Escenarios reales de producción:

  • Auto-hospedar DeepSeek V4 para una empresa regulada (banco, hospital, gobierno).
  • Startup sirviendo un modelo abierto frontera como su propio producto API.
  • Plataforma de IA multi-tenant con miles de usuarios concurrentes.
  • Laboratorio de investigación corriendo inferencia frontera + experimentos de fine-tuning.

Parte 4 — Matriz rápida de decisión

Si tu situación es…Elige este modeloEn este hardware
Dev individual, quiere asistente de códigoQwen 3.6 35B-A3B o Devstral 24BRTX 4090 / Mac M4 Max 36GB+
Equipo pequeño, RAG interno sobre documentosLlama 3.3 70B (Q4)RTX 4090 / Mac Studio 96GB / H100 en nube
SaaS mediano, necesita auto-hospedar features de IALlama 3.3 70B o Qwen 3.6 35B-A3B1× H100 con vLLM
Empresa con requisitos de soberanía de datos LATAMMistral Small / Medium o Qwen 3.6 35B-A3B1× H100 o 2× RTX 5090, datacenter local
Producto multilingüe (LATAM + Asia)Familia Qwen 3.5 / 3.6Dimensionado a tu tráfico
Calidad open frontera, industria regulada (banca/salud/gobierno)DeepSeek V4-ProCluster 8× H200
Agente de programación frontera auto-hospedadoKimi K2.6 (INT4 nativo)4× H100 o 2× H200
Producto open de programación agéntica (startup)Kimi K2.6 o DeepSeek V4-FlashSingle H100 DGX o proveedor hosted
Investigación de razonamiento/matemáticasDeepSeek R1 o V4-Pro8× H100 / H200
Agente local con tool calling con presupuesto ajustadoGemma 4 9BRTX 4070 Ti / Mac M3 Pro
Visión + texto en hardware de consumoGemma 4 9B (visión) o Llama 4 ScoutRTX 4090 / Mac M4 Max
Modelo frontera en una sola máquina para uso personalKimi K2.6 (INT4 nativo) o DeepSeek V4-FlashMac Studio M4 Ultra 256GB+
Exprimir máximo throughput de hardware NVIDIAVariantes NemotronH100/H200/B200 con TensorRT-LLM
Contexto largo (>1M tokens)Llama 4 Scout (10M) o DeepSeek V4 (1M)Dimensionado al modelo

Parte 5 — Tres patrones que vale internalizar

1. MoE es para servir, denso es para que entre. ¿Corriendo un usuario en una máquina? Los modelos densos te dan más calidad por GB de memoria. ¿Sirviendo muchos usuarios? MoE gana porque la cantidad de parámetros activos define tu costo por token mientras que la cantidad de parámetros totales define tu cuenta única de memoria.

2. La Mac Studio es real, pero solo para inferencia de modelos grandes con un solo usuario. Una Mac Studio de 256GB corre modelos que costarían $80K+ USD en hardware NVIDIA, a velocidades de un solo usuario. Genuinamente útil para desarrolladores individuales, investigadores, consultorías pequeñas. Especialmente relevante en LATAM donde el costo y dificultad de importar GPUs de datacenter NVIDIA hace que la Mac sea una alternativa práctica seria. No es plataforma para servir en producción — para eso, NVIDIA gana en throughput, batching, y madurez de software. Usa MLX sobre llama.cpp cuando ambos soporten el modelo — speedups medibles de 2× en 2026.

3. La cuantización nativa cambia la matemática del despliegue. Kimi K2.6 sale en INT4 nativo. DeepSeek V4 sale en mezcla FP8 + FP4. Esto es un cambio importante respecto al mundo viejo donde la cuantización siempre era un intercambio de calidad-vs-encajar. Para modelos con cuantización nativa, INT4 es el despliegue intencionado — no estás cediendo nada. Espera más modelos siguiendo este patrón a lo largo de 2026.


Reflexión final

Los pesos abiertos en 2026 cubren todo el espectro de calidad. Ya no hay capacidad frontera que esté disponible solo detrás de una API cerrada — DeepSeek V4-Pro, Kimi K2.6, y Qwen 3.6 Max están todos a distancia de golpe de GPT-5 y Claude Opus en los benchmarks que importan para trabajo de producción. La pregunta real de ingeniería ya no es «abierto vs cerrado» — es «qué modelo abierto, a qué cuantización, en qué hardware, para qué workload.» Los números de esta guía te deberían dar suficiente para tomar esa decisión sin adivinar.

Para LATAM específicamente, el caso de auto-hospedar modelos open-weights es aún más fuerte que en otras regiones: regulaciones de soberanía de datos en cada país (LGPD, Ley 1581, LFPDPPP, Ley 25.326), volatilidad cambiaria que hace impredecibles los costos en USD de las APIs, y latencia desde datacenters norteamericanos que importa para experiencias de usuario. La estrategia ganadora típica es: empezar en API para validar producto, mover el volumen sostenido a auto-hospedaje en cuanto el gasto mensual justifique la inversión.

El ritmo va a continuar. Espera otra ola mayor de releases para finales del Q3 2026 — probablemente DeepSeek V4.x, Qwen 4, y un refresh de Llama 4.x. Los patrones arquitectónicos — economía de MoE, intercambios de cuantización, MLX vs CUDA, matriz de dimensionamiento-a-hardware — no van a cambiar. Construye tu sistema alrededor de los patrones, no de los nombres de modelos.

Etiquetas: Codestral / DevstralCUDADeepSeek R1DeepSeek V4-FlashDeepSeek V4-ProGemma 4Kimi K2Large Language Models (LLM)Llama 4MagistralMistralMLXNemotronQwen 3
EnviarEnviarCompartir
Aplicar.AI

Aplicar.AI

Historias relacionadas

The Silicon Showdown: Inside the $200 Billion Battle Reshaping AI

El Duelo del Silicio: La Batalla de $200 Mil Millones que Está Redefiniendo la IA

por Aplicar.AI
mayo 8, 2026
0

Cómo Amazon, Google, Apple y Nvidia están peleando por el alma de la inteligencia artificial — y qué significa para tu bolsillo, tus aplicaciones y tu privacidad El...

OpenAI Goes AWS

OpenAI se va a AWS: La Ventaja de IA de Microsoft Azure se Acaba de Reducir

por Aplicar.AI
mayo 9, 2026
0

Durante casi siete años, el mapa de la infraestructura de IA tuvo una forma fija. OpenAI construía los modelos de frontera, Microsoft Azure era el único hiperescalador legalmente...

Siguiente entrada
Anthropic Claude Training

Por qué deberías hacer el entrenamiento oficial de Claude (y qué vas a sacar realmente de él)

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Aprender & Aplicar IA

Aplicar.AI logo

La IA avanza rápido. Te ayudamos a mantenerte al día, entender lo que importa y aplicarla — todo lo que necesitas para aprender y aplicar IA está aquí.

Entradas recientes

  • Por qué deberías hacer el entrenamiento oficial de Claude (y qué vas a sacar realmente de él)
  • Guía Práctica de LLMs Open-Weights 2026
  • El Duelo del Silicio: La Batalla de $200 Mil Millones que Está Redefiniendo la IA

Categorías

  • Alibaba
  • Amazon AWS
  • Anthropic
  • Apple
  • Código con IA
  • Cómputo de IA
  • DeepSeek
  • Google
  • IA Agéntica
  • IA Local
  • Microsoft
  • MiniMax
  • Mistral AI
  • Moonshot AI
  • Noticias de IA
  • NVIDIA
  • OpenAI

Etiquetas

AI benchmarks Apple Silicon AWS Bedrock Claude AI Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemini AI Gemma 4 GPT-5.4 GPT-5.5 Kimi K2 Large Language Models (LLM) Llama 4 Magistral Mistral MLX Nemotron Qwen 3 Tensor Processing Unit (TPU) Trainium Tutoriales
  • English
  • Español
  • Português
  • 中文 (中国)

© 2026 Aplicar.AI - Aprender & Aplicar AI

¡Bienvenido de vuelta!

Inicia sesión en tu cuenta

¿Olvidaste tu contraseña?

Recuperar contraseña

Ingresa los datos para restablecer tu contraseña

Entrar

Utilizamos cookies para ofrecerte la mejor experiencia en nuestro sitio web.
Puedes obtener más información sobre las cookies que utilizamos o desactivarlas en .

Sin resultados
Ver todos los resultados
  • Inicio
  • Noticias de IA
  • IA Vídeo
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Agéntica
  • Código con IA
  • Utilidades IA
  • Proveedores de IA
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • Alibaba
    • MiniMax
  • Código Abierto
  • Glosario de IA
  • Español
    • English
    • Español
    • Português
    • 中文 (中国)

© 2026 Aplicar.AI - Aprender & Aplicar AI

Resumen de privacidad
Aprender & Aplicar AI

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Necessary

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.

Desarrollado por  GDPR Cookie Compliance