Cómo correr los modelos abiertos Nemotron de NVIDIA en tu Mac con MLX

🎧 Listen to this article

Hace poco, juntar «Apple Silicon» y «IA de NVIDIA» en la misma frase sonaba raro, casi contradictorio. En 2026 ya es rutina. Los modelos de pesos abiertos Nemotron, de NVIDIA, ahora corren de forma nativa en cualquier Mac con chip M1, M2, M3, M4 o M5 usando MLX, el framework de machine learning de Apple. Sin GPU dedicada, sin factura de nube a fin de mes y sin que tus datos salgan de la computadora.

Esta guía explica qué es Nemotron, por qué MLX lo hace volar en una Mac, cómo instalar todo en pocos minutos y —quizás lo más importante— para qué sirve esto en el día a día de quien trabaja en América Latina.

Qué es Nemotron, sin tecnicismos

Pensá en Nemotron como la respuesta de NVIDIA a los modelos abiertos de Meta (Llama), Alibaba (Qwen) y Mistral. Es una familia de modelos de lenguaje con pesos abiertos, que cualquiera puede descargar, inspeccionar, ajustar e incluso usar comercialmente en sus propios productos.

Lo que lo hace distinto:

Abierto de verdad. NVIDIA publica los pesos, los datos de entrenamiento y hasta las recetas usadas para construir el modelo. La mayoría de los modelos «abiertos» solo libera los pesos finales.
Diseñado para agentes. Los modelos fueron entrenados para ejecutar tareas en varios pasos: usar herramientas, consultar bases de datos, correr código, no solo conversar.
Eficiente por diseño. Usa una arquitectura llamada Mixture-of-Experts (MoE). Funciona como un hospital: no convocás a todos los médicos para cada paciente, solo al especialista que corresponde.

La familia actual, en resumen:

Modelo	Parámetros totales	Parámetros activos	Ideal para
Nemotron 3 Nano 9B / 12B v2	9B / 12B	densos	Laptops comunes, chat rápido, agentes locales
Nemotron 3 Nano 30B-A3B	30B	3.5B	El punto ideal para Apple Silicon
Nemotron 3 Nano Omni	30B	3B	Multimodal (texto, imagen, audio y video)
Nemotron 3 Super	120B	12B	Workstation, contextos largos, agentes complejos

Para la mayoría de las Macs, el Nano 30B-A3B es la opción natural. A pesar del número «30B», solo se activan 3.5 mil millones de parámetros por token, así que genera texto a la velocidad de un modelo pequeño pero razona como uno mucho más grande.

Por qué MLX cambia el juego en una Mac

MLX es el framework de machine learning open source de Apple, hecho a medida para los chips de la serie M. La gran jugada es la memoria unificada: en una Mac, la CPU y la GPU comparten la misma RAM. Eso significa que una MacBook Pro de 36 GB puede cargar un modelo de 30B que normalmente exigiría una GPU dedicada de 24 GB o más, el tipo de placa que cuesta lo mismo que un auto usado en buena parte de la región.

En la práctica:

Una Mac mini M4 básica ya es una máquina viable para desarrollar con LLMs locales.
Una MacBook Pro de 32 a 64 GB corre el Nemotron 3 Nano 30B en cuantización 4-bit a unos 80–100 tokens por segundo, más rápido de lo que la mayoría de la gente lee.
Benchmarks recientes muestran un M4 Pro superando a un M2 Max en modelos Nemotron con MLX. Los chips Apple más nuevos fueron optimizados específicamente para este tipo de carga.

Para dimensionar: hace dos años, correr un modelo de 30B localmente en una Mac significaba compilar llama.cpp a pulmón, pelear con errores de Metal y, casi siempre, rendirse.

Una palabra honesta sobre el hardware en LATAM

Hablemos claro: las Macs en América Latina son caras. Entre impuestos de importación, márgenes locales y tipo de cambio, una MacBook Pro M4 de 32 GB termina costando bastante más que en Estados Unidos. Vale la pena ser realistas:

Si ya tenés una Mac con chip M, cualquier modelo M1 o superior con al menos 16 GB sirve para arrancar.
Si estás pensando en comprar, el mejor costo-beneficio hoy es la Mac mini M4 con 24 GB o 32 GB. Sale bastante menos que una MacBook Pro y corre los modelos medianos con holgura. Si viajás a Miami, Santiago, Panamá o cualquier mercado con menos impuestos, suele convenir comprarla afuera.
Si el presupuesto no da por ahora, podés usar los mismos modelos Nemotron vía API en proveedores como Together AI, OpenRouter o DeepInfra por centavos de dólar por millón de tokens. No es local, pero es accesible.

Correr todo localmente tiene sentido cuando valorás privacidad, cumplimiento normativo (Ley Federal de Protección de Datos en México, Habeas Data en Argentina y Colombia, Ley 19.628 en Chile, Ley 25.326 y similares en el resto de la región) o simplemente no querés depender de buena conexión para trabajar.

Lo que vas a necesitar

Antes de empezar, confirmá que tenés:

Una Mac con chip M1 o superior (M2, M3, M4 o M5 funcionan)
macOS 14 (Sonoma) o más reciente
Python 3.10+ instalado (desde python.org o con brew install python)
Espacio en disco: unos 18 GB para el Nano en 4-bit, 32 GB en 8-bit, 70 GB o más para el Super
RAM recomendada: 16 GB para los modelos más chicos, 32 GB o más para el Nano 30B, 64 GB para trabajar cómodo

Camino 1: La forma fácil — LM Studio

Si solo querés chatear con Nemotron en una interfaz prolija, sin tocar la terminal:

Descargá LM Studio para Mac (gratis).
Abrí la app y buscá Nemotron 3 Nano.
Elegí una versión MLX. El NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit es un excelente punto de partida.
Tocá Download, después Load Model, y listo, ya podés empezar a conversar.

LM Studio además levanta una API local compatible con la de OpenAI en http://localhost:1234/v1. Cualquier herramienta que hable con OpenAI (Cursor, Continue, scripts propios) puede apuntar a tu Mac en lugar de a la nube.

Camino 2: La forma del desarrollador — mlx-lm

Para quien quiere más control, automatización e integración con aplicaciones propias, instalá mlx-lm, el paquete de Python oficial del equipo MLX.

Paso 1: Creá un entorno aislado

# Creá un entorno virtual para no contaminar el Python del sistema
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate

# Instalá mlx-lm
pip install --upgrade mlx-lm

Paso 2: Corré Nemotron desde la terminal

La forma más rápida de verificar que todo funciona:

mlx_lm.generate \
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit \
  --prompt "Explicá qué es una blockchain como si tuviera 10 años." \
  --max-tokens 400

La primera corrida descarga el modelo (unos minutos según tu conexión). Después queda en caché local y arranca en segundos.

Paso 3: Usalo desde Python

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)

messages = [
    {"role": "user", "content": "Escribí una función en Python que detecte palíndromos."}
]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)

Paso 4: Levantá un servidor local

Para usar Nemotron desde otras apps (extensiones de VS Code, Raycast, tu propia interfaz web), levantá el servidor compatible con la API de OpenAI:

mlx_lm.server \
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit \
  --port 8080

Ahora cualquier cliente que hable el protocolo de OpenAI puede llamar a http://localhost:8080/v1/chat/completions.

Una nota sobre el Nano 30B

El Nano 30B usa una arquitectura híbrida Mamba2 + Transformer, que todavía está madurando en mlx-lm. Si aparece algún error, las versiones 9B o 12B v2 están completamente soportadas y funcionan muy bien en una laptop. Las builds de la comunidad de LM Studio (lmstudio-community/...) suelen ser las conversiones MLX más probadas.

Casos de uso reales en contexto latinoamericano

Esto no es un truco para impresionar en una charla. Acá va lo que se puede hacer útil corriendo Nemotron localmente:

1. Asistente de programación privado

Conectá Cursor, Continue o Zed a tu mlx_lm.server local. Tenés autocomplete y chat sin mandar una sola línea de código a un servidor externo. Clave para quien trabaja con datos de clientes, sistemas bancarios, historias clínicas o cualquier cosa que toque normativa de protección de datos en serio.

2. Análisis de documentos confidenciales

Estudios jurídicos, contadores, profesionales de RR.HH. y médicos pueden alimentar contratos, balances, legajos e informes en un pipeline RAG local. Como Nemotron soporta contextos de hasta 1 millón de tokens, podés meter expedientes completos, historiales o codebases enteros sin tener que partirlos.

3. Agentes que funcionan offline

Nemotron fue entrenado específicamente para uso de herramientas. Combinándolo con frameworks como LangGraph o PydanticAI, puede consultar archivos locales, correr scripts o hacer queries a SQLite, todo sin internet. Útil para quien trabaja en zonas con conectividad inestable, viajando por el interior, o en entornos corporativos con restricciones de red.

4. Procesamiento en lote de texto en español

¿Necesitás resumir 5.000 reseñas de Mercado Libre, clasificar tickets de atención al cliente, traducir documentación o extraer información de facturas electrónicas? Armás un loop con el modelo local. El costo es el de la electricidad, no centavos por millón de tokens, y a escala eso pesa en el bolsillo, sobre todo cuando los proveedores de IA cobran en dólares.

5. Aprendizaje y experimentación

Como los pesos y las recetas son abiertas, Nemotron es uno de los mejores modelos para entender de verdad cómo funciona un LLM moderno. Se puede hacer fine-tuning en una Mac de 64 GB con las herramientas LoRA de MLX, inspeccionar patrones de atención e incluso intercambiar capas. Para universidades, bootcamps y comunidades de IA en la región, es un recurso enorme.

Tips prácticos que valen oro

Empezá con 4-bit. La pérdida de calidad es mínima en la mayoría de las tareas y el uso de memoria cae a la mitad. Subí a 6-bit u 8-bit solo si notás diferencia.
Mirá el Monitor de Actividad. Seguí el gráfico de «Presión de Memoria». Si se pone amarillo o rojo, bajá la cuantización o cambiá a un modelo más chico.
Cerrá Chrome. En serio. Un modelo de 30B y 80 pestañas abiertas no conviven bien en una Mac de 32 GB.
Usá el modo razonamiento con criterio. Nemotron 3 Nano tiene un modo de razonamiento integrado. Activalo para problemas complejos (matemática, código, lógica) y dejalo apagado para chat rápido. Lo controlás desde el prompt del sistema.

Por qué todo esto importa ahora

Tres movimientos se cruzaron en 2026 y volvieron posible este escenario:

Los modelos abiertos maduraron en serio. Nemotron 3 Super compite con modelos propietarios de frontera en benchmarks de agentes, a un costo cerca de 10 veces menor.
Apple Silicon evolucionó en la dirección correcta. Los chips M4 y M5 fueron optimizados específicamente para cargas de transformer.
MLX maduró. Está a la altura, y a veces por encima, de llama.cpp en hardware Apple, con una API de Python mucho más amigable.

Resultado: una laptop que ya tenés (o que podés considerar comprar) corre hoy modelos que hace dos años exigían un servidor de USD 40.000.

Resumen de lo importante

Nemotron es la familia de modelos abiertos de NVIDIA, orientada a IA agéntica, con pesos, datos y recetas totalmente publicados.
MLX es el framework nativo de Apple, que aprovecha la memoria unificada para correr modelos grandes en Macs comunes.
La variante Nano 30B-A3B es el punto ideal: calidad de modelo grande, velocidad de modelo chico, entra en una Mac de 32 GB en 4-bit.
Dos caminos de instalación: LM Studio (interfaz gráfica, más fácil) o pip install mlx-lm (programático, flexible).
El valor real está en programación con privacidad, análisis de documentos confidenciales, agentes offline, procesamiento en lote y estudio.
Hardware ideal en LATAM: Mac mini M4 con 24–32 GB tiene el mejor costo-beneficio. MacBook Pro de 32–64 GB si necesitás movilidad.

La historia más grande detrás de todo esto es el cambio que representa. Los mejores modelos abiertos ya no son algo que alquilás por millón de tokens, son algo que corre en la laptop al lado tuyo. Que NVIDIA los publique, que Apple los optimice y que la comunidad open source los convierta es un momento discreto pero importante en la democratización de la IA. Especialmente para una región donde el dólar y los costos de infraestructura en la nube siguen pesando en el bolsillo de quien desarrolla.

Instalá uno y probalo. Te vas a sorprender.

Etiquetas: Apple Silicon MLX Modelos de Lenguaje Grandes (LLM)Nemotron

Cómo correr los modelos abiertos Nemotron de NVIDIA en tu Mac con MLX

Anthropic se ve obligada a cerrar Fable 5 y Mythos 5 tras una orden de exportación de EE. UU.

¿Qué es la programación agéntica? Cómo la IA escribe, prueba, depura y publica software

Cómo correr los modelos abiertos Nemotron de NVIDIA en tu Mac con MLX

Equipo Editorial de Aplicar.AI

Historias relacionadas

¿Qué es la programación agéntica? Cómo la IA escribe, prueba, depura y publica software

Deja de pagar precios premium: cómo reducir los costos de programación con IA usando Claude, Qwen y DeepSeek

Qwen, la IA china de código abierto que está cambiando las reglas del juego

Guía práctica de AnythingLLM: instalación, uso y casos de uso reales

Guía práctica de AnythingLLM: instalación, uso y casos de uso reales

Deja una respuesta Cancelar la respuesta

Aprender & Aplicar IA

Entradas recientes

Categorías

¡Bienvenido de vuelta!

Recuperar contraseña