Hace poco, juntar «Apple Silicon» y «IA de NVIDIA» en la misma frase sonaba raro, casi contradictorio. En 2026 ya es rutina. Los modelos de pesos abiertos Nemotron, de NVIDIA, ahora corren de forma nativa en cualquier Mac con chip M1, M2, M3, M4 o M5 usando MLX, el framework de machine learning de Apple. Sin GPU dedicada, sin factura de nube a fin de mes y sin que tus datos salgan de la computadora.
Esta guía explica qué es Nemotron, por qué MLX lo hace volar en una Mac, cómo instalar todo en pocos minutos y —quizás lo más importante— para qué sirve esto en el día a día de quien trabaja en América Latina.
Qué es Nemotron, sin tecnicismos
Pensá en Nemotron como la respuesta de NVIDIA a los modelos abiertos de Meta (Llama), Alibaba (Qwen) y Mistral. Es una familia de modelos de lenguaje con pesos abiertos, que cualquiera puede descargar, inspeccionar, ajustar e incluso usar comercialmente en sus propios productos.
Lo que lo hace distinto:
- Abierto de verdad. NVIDIA publica los pesos, los datos de entrenamiento y hasta las recetas usadas para construir el modelo. La mayoría de los modelos «abiertos» solo libera los pesos finales.
- Diseñado para agentes. Los modelos fueron entrenados para ejecutar tareas en varios pasos: usar herramientas, consultar bases de datos, correr código, no solo conversar.
- Eficiente por diseño. Usa una arquitectura llamada Mixture-of-Experts (MoE). Funciona como un hospital: no convocás a todos los médicos para cada paciente, solo al especialista que corresponde.
La familia actual, en resumen:
| Modelo | Parámetros totales | Parámetros activos | Ideal para |
|---|---|---|---|
| Nemotron 3 Nano 9B / 12B v2 | 9B / 12B | densos | Laptops comunes, chat rápido, agentes locales |
| Nemotron 3 Nano 30B-A3B | 30B | 3.5B | El punto ideal para Apple Silicon |
| Nemotron 3 Nano Omni | 30B | 3B | Multimodal (texto, imagen, audio y video) |
| Nemotron 3 Super | 120B | 12B | Workstation, contextos largos, agentes complejos |
Para la mayoría de las Macs, el Nano 30B-A3B es la opción natural. A pesar del número «30B», solo se activan 3.5 mil millones de parámetros por token, así que genera texto a la velocidad de un modelo pequeño pero razona como uno mucho más grande.
Por qué MLX cambia el juego en una Mac
MLX es el framework de machine learning open source de Apple, hecho a medida para los chips de la serie M. La gran jugada es la memoria unificada: en una Mac, la CPU y la GPU comparten la misma RAM. Eso significa que una MacBook Pro de 36 GB puede cargar un modelo de 30B que normalmente exigiría una GPU dedicada de 24 GB o más, el tipo de placa que cuesta lo mismo que un auto usado en buena parte de la región.
En la práctica:
- Una Mac mini M4 básica ya es una máquina viable para desarrollar con LLMs locales.
- Una MacBook Pro de 32 a 64 GB corre el Nemotron 3 Nano 30B en cuantización 4-bit a unos 80–100 tokens por segundo, más rápido de lo que la mayoría de la gente lee.
- Benchmarks recientes muestran un M4 Pro superando a un M2 Max en modelos Nemotron con MLX. Los chips Apple más nuevos fueron optimizados específicamente para este tipo de carga.
Para dimensionar: hace dos años, correr un modelo de 30B localmente en una Mac significaba compilar llama.cpp a pulmón, pelear con errores de Metal y, casi siempre, rendirse.
Una palabra honesta sobre el hardware en LATAM
Hablemos claro: las Macs en América Latina son caras. Entre impuestos de importación, márgenes locales y tipo de cambio, una MacBook Pro M4 de 32 GB termina costando bastante más que en Estados Unidos. Vale la pena ser realistas:
- Si ya tenés una Mac con chip M, cualquier modelo M1 o superior con al menos 16 GB sirve para arrancar.
- Si estás pensando en comprar, el mejor costo-beneficio hoy es la Mac mini M4 con 24 GB o 32 GB. Sale bastante menos que una MacBook Pro y corre los modelos medianos con holgura. Si viajás a Miami, Santiago, Panamá o cualquier mercado con menos impuestos, suele convenir comprarla afuera.
- Si el presupuesto no da por ahora, podés usar los mismos modelos Nemotron vía API en proveedores como Together AI, OpenRouter o DeepInfra por centavos de dólar por millón de tokens. No es local, pero es accesible.
Correr todo localmente tiene sentido cuando valorás privacidad, cumplimiento normativo (Ley Federal de Protección de Datos en México, Habeas Data en Argentina y Colombia, Ley 19.628 en Chile, Ley 25.326 y similares en el resto de la región) o simplemente no querés depender de buena conexión para trabajar.
Lo que vas a necesitar
Antes de empezar, confirmá que tenés:
- Una Mac con chip M1 o superior (M2, M3, M4 o M5 funcionan)
- macOS 14 (Sonoma) o más reciente
- Python 3.10+ instalado (desde python.org o con
brew install python) - Espacio en disco: unos 18 GB para el Nano en 4-bit, 32 GB en 8-bit, 70 GB o más para el Super
- RAM recomendada: 16 GB para los modelos más chicos, 32 GB o más para el Nano 30B, 64 GB para trabajar cómodo
Camino 1: La forma fácil — LM Studio
Si solo querés chatear con Nemotron en una interfaz prolija, sin tocar la terminal:
- Descargá LM Studio para Mac (gratis).
- Abrí la app y buscá
Nemotron 3 Nano. - Elegí una versión MLX. El
NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bites un excelente punto de partida. - Tocá Download, después Load Model, y listo, ya podés empezar a conversar.
LM Studio además levanta una API local compatible con la de OpenAI en http://localhost:1234/v1. Cualquier herramienta que hable con OpenAI (Cursor, Continue, scripts propios) puede apuntar a tu Mac en lugar de a la nube.
Camino 2: La forma del desarrollador — mlx-lm
Para quien quiere más control, automatización e integración con aplicaciones propias, instalá mlx-lm, el paquete de Python oficial del equipo MLX.
Paso 1: Creá un entorno aislado
# Creá un entorno virtual para no contaminar el Python del sistema
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate
# Instalá mlx-lm
pip install --upgrade mlx-lm
Paso 2: Corré Nemotron desde la terminal
La forma más rápida de verificar que todo funciona:
mlx_lm.generate \
--model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit \
--prompt "Explicá qué es una blockchain como si tuviera 10 años." \
--max-tokens 400
La primera corrida descarga el modelo (unos minutos según tu conexión). Después queda en caché local y arranca en segundos.
Paso 3: Usalo desde Python
from mlx_lm import load, generate
model, tokenizer = load(
"mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)
messages = [
{"role": "user", "content": "Escribí una función en Python que detecte palíndromos."}
]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, tokenize=False
)
response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)
Paso 4: Levantá un servidor local
Para usar Nemotron desde otras apps (extensiones de VS Code, Raycast, tu propia interfaz web), levantá el servidor compatible con la API de OpenAI:
mlx_lm.server \
--model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit \
--port 8080
Ahora cualquier cliente que hable el protocolo de OpenAI puede llamar a http://localhost:8080/v1/chat/completions.
Una nota sobre el Nano 30B
El Nano 30B usa una arquitectura híbrida Mamba2 + Transformer, que todavía está madurando en mlx-lm. Si aparece algún error, las versiones 9B o 12B v2 están completamente soportadas y funcionan muy bien en una laptop. Las builds de la comunidad de LM Studio (lmstudio-community/...) suelen ser las conversiones MLX más probadas.
Casos de uso reales en contexto latinoamericano
Esto no es un truco para impresionar en una charla. Acá va lo que se puede hacer útil corriendo Nemotron localmente:
1. Asistente de programación privado
Conectá Cursor, Continue o Zed a tu mlx_lm.server local. Tenés autocomplete y chat sin mandar una sola línea de código a un servidor externo. Clave para quien trabaja con datos de clientes, sistemas bancarios, historias clínicas o cualquier cosa que toque normativa de protección de datos en serio.
2. Análisis de documentos confidenciales
Estudios jurídicos, contadores, profesionales de RR.HH. y médicos pueden alimentar contratos, balances, legajos e informes en un pipeline RAG local. Como Nemotron soporta contextos de hasta 1 millón de tokens, podés meter expedientes completos, historiales o codebases enteros sin tener que partirlos.
3. Agentes que funcionan offline
Nemotron fue entrenado específicamente para uso de herramientas. Combinándolo con frameworks como LangGraph o PydanticAI, puede consultar archivos locales, correr scripts o hacer queries a SQLite, todo sin internet. Útil para quien trabaja en zonas con conectividad inestable, viajando por el interior, o en entornos corporativos con restricciones de red.
4. Procesamiento en lote de texto en español
¿Necesitás resumir 5.000 reseñas de Mercado Libre, clasificar tickets de atención al cliente, traducir documentación o extraer información de facturas electrónicas? Armás un loop con el modelo local. El costo es el de la electricidad, no centavos por millón de tokens, y a escala eso pesa en el bolsillo, sobre todo cuando los proveedores de IA cobran en dólares.
5. Aprendizaje y experimentación
Como los pesos y las recetas son abiertas, Nemotron es uno de los mejores modelos para entender de verdad cómo funciona un LLM moderno. Se puede hacer fine-tuning en una Mac de 64 GB con las herramientas LoRA de MLX, inspeccionar patrones de atención e incluso intercambiar capas. Para universidades, bootcamps y comunidades de IA en la región, es un recurso enorme.
Tips prácticos que valen oro
- Empezá con 4-bit. La pérdida de calidad es mínima en la mayoría de las tareas y el uso de memoria cae a la mitad. Subí a 6-bit u 8-bit solo si notás diferencia.
- Mirá el Monitor de Actividad. Seguí el gráfico de «Presión de Memoria». Si se pone amarillo o rojo, bajá la cuantización o cambiá a un modelo más chico.
- Cerrá Chrome. En serio. Un modelo de 30B y 80 pestañas abiertas no conviven bien en una Mac de 32 GB.
- Usá el modo razonamiento con criterio. Nemotron 3 Nano tiene un modo de razonamiento integrado. Activalo para problemas complejos (matemática, código, lógica) y dejalo apagado para chat rápido. Lo controlás desde el prompt del sistema.
Por qué todo esto importa ahora
Tres movimientos se cruzaron en 2026 y volvieron posible este escenario:
- Los modelos abiertos maduraron en serio. Nemotron 3 Super compite con modelos propietarios de frontera en benchmarks de agentes, a un costo cerca de 10 veces menor.
- Apple Silicon evolucionó en la dirección correcta. Los chips M4 y M5 fueron optimizados específicamente para cargas de transformer.
- MLX maduró. Está a la altura, y a veces por encima, de llama.cpp en hardware Apple, con una API de Python mucho más amigable.
Resultado: una laptop que ya tenés (o que podés considerar comprar) corre hoy modelos que hace dos años exigían un servidor de USD 40.000.
Resumen de lo importante
- Nemotron es la familia de modelos abiertos de NVIDIA, orientada a IA agéntica, con pesos, datos y recetas totalmente publicados.
- MLX es el framework nativo de Apple, que aprovecha la memoria unificada para correr modelos grandes en Macs comunes.
- La variante Nano 30B-A3B es el punto ideal: calidad de modelo grande, velocidad de modelo chico, entra en una Mac de 32 GB en 4-bit.
- Dos caminos de instalación: LM Studio (interfaz gráfica, más fácil) o
pip install mlx-lm(programático, flexible). - El valor real está en programación con privacidad, análisis de documentos confidenciales, agentes offline, procesamiento en lote y estudio.
- Hardware ideal en LATAM: Mac mini M4 con 24–32 GB tiene el mejor costo-beneficio. MacBook Pro de 32–64 GB si necesitás movilidad.
La historia más grande detrás de todo esto es el cambio que representa. Los mejores modelos abiertos ya no son algo que alquilás por millón de tokens, son algo que corre en la laptop al lado tuyo. Que NVIDIA los publique, que Apple los optimice y que la comunidad open source los convierta es un momento discreto pero importante en la democratización de la IA. Especialmente para una región donde el dólar y los costos de infraestructura en la nube siguen pesando en el bolsillo de quien desarrolla.
Instalá uno y probalo. Te vas a sorprender.








