• Más reciente
Running NVIDIA's Nemotron Open Models on Your Mac with MLX

Cómo correr los modelos abiertos Nemotron de NVIDIA en tu Mac con MLX

mayo 11, 2026
The Qwen Family: Open-Weight AI from Alibaba

Qwen, la IA china de código abierto que está cambiando las reglas del juego

mayo 17, 2026
Anthropic Claude Mythos Preview

Anthropic Mythos: La IA tan poderosa que ni siquiera su creador se atreve a lanzarla

mayo 16, 2026
AI News
  • Inicio
  • Noticias de IA
  • IA Vídeo
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Agéntica
  • Código con IA
  • Utilidades IA
  • Proveedores de IA
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • Alibaba
    • MiniMax
  • Código Abierto
  • Glosario de IA
  • Español
    • English
    • Español
    • Português
    • 中文 (中国)
Sin resultados
Ver todos los resultados
SAVED POSTS
AI News
  • Inicio
  • Noticias de IA
  • IA Vídeo
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Agéntica
  • Código con IA
  • Utilidades IA
  • Proveedores de IA
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • Alibaba
    • MiniMax
  • Código Abierto
  • Glosario de IA
  • Español
    • English
    • Español
    • Português
    • 中文 (中国)
Sin resultados
Ver todos los resultados
aplicar.AI
Sin resultados
Ver todos los resultados
Inicio Proveedores de IA NVIDIA
Running NVIDIA's Nemotron Open Models on Your Mac with MLX

Running NVIDIA's Nemotron Open Models on Your Mac with MLX

Cómo correr los modelos abiertos Nemotron de NVIDIA en tu Mac con MLX

Aplicar.AI por Aplicar.AI
mayo 11, 2026
en NVIDIA, Apple, Código Abierto, IA Agéntica, IA Local, Inferencia
0
Compartir por correoCompartir por WhatsAppCompartir en Facebook
  • EnglishEnglish
  • EspañolEspañol
  • PortuguêsPortuguês
  • 中文 (中国)中文 (中国)
🎧 Listen to this articleYour browser does not support the audio element.

Hace poco, juntar «Apple Silicon» y «IA de NVIDIA» en la misma frase sonaba raro, casi contradictorio. En 2026 ya es rutina. Los modelos de pesos abiertos Nemotron, de NVIDIA, ahora corren de forma nativa en cualquier Mac con chip M1, M2, M3, M4 o M5 usando MLX, el framework de machine learning de Apple. Sin GPU dedicada, sin factura de nube a fin de mes y sin que tus datos salgan de la computadora.

Esta guía explica qué es Nemotron, por qué MLX lo hace volar en una Mac, cómo instalar todo en pocos minutos y —quizás lo más importante— para qué sirve esto en el día a día de quien trabaja en América Latina.

Qué es Nemotron, sin tecnicismos

Pensá en Nemotron como la respuesta de NVIDIA a los modelos abiertos de Meta (Llama), Alibaba (Qwen) y Mistral. Es una familia de modelos de lenguaje con pesos abiertos, que cualquiera puede descargar, inspeccionar, ajustar e incluso usar comercialmente en sus propios productos.

Lo que lo hace distinto:

  • Abierto de verdad. NVIDIA publica los pesos, los datos de entrenamiento y hasta las recetas usadas para construir el modelo. La mayoría de los modelos «abiertos» solo libera los pesos finales.
  • Diseñado para agentes. Los modelos fueron entrenados para ejecutar tareas en varios pasos: usar herramientas, consultar bases de datos, correr código, no solo conversar.
  • Eficiente por diseño. Usa una arquitectura llamada Mixture-of-Experts (MoE). Funciona como un hospital: no convocás a todos los médicos para cada paciente, solo al especialista que corresponde.

La familia actual, en resumen:

ModeloParámetros totalesParámetros activosIdeal para
Nemotron 3 Nano 9B / 12B v29B / 12BdensosLaptops comunes, chat rápido, agentes locales
Nemotron 3 Nano 30B-A3B30B3.5BEl punto ideal para Apple Silicon
Nemotron 3 Nano Omni30B3BMultimodal (texto, imagen, audio y video)
Nemotron 3 Super120B12BWorkstation, contextos largos, agentes complejos

Para la mayoría de las Macs, el Nano 30B-A3B es la opción natural. A pesar del número «30B», solo se activan 3.5 mil millones de parámetros por token, así que genera texto a la velocidad de un modelo pequeño pero razona como uno mucho más grande.

Por qué MLX cambia el juego en una Mac

MLX es el framework de machine learning open source de Apple, hecho a medida para los chips de la serie M. La gran jugada es la memoria unificada: en una Mac, la CPU y la GPU comparten la misma RAM. Eso significa que una MacBook Pro de 36 GB puede cargar un modelo de 30B que normalmente exigiría una GPU dedicada de 24 GB o más, el tipo de placa que cuesta lo mismo que un auto usado en buena parte de la región.

En la práctica:

  • Una Mac mini M4 básica ya es una máquina viable para desarrollar con LLMs locales.
  • Una MacBook Pro de 32 a 64 GB corre el Nemotron 3 Nano 30B en cuantización 4-bit a unos 80–100 tokens por segundo, más rápido de lo que la mayoría de la gente lee.
  • Benchmarks recientes muestran un M4 Pro superando a un M2 Max en modelos Nemotron con MLX. Los chips Apple más nuevos fueron optimizados específicamente para este tipo de carga.

Para dimensionar: hace dos años, correr un modelo de 30B localmente en una Mac significaba compilar llama.cpp a pulmón, pelear con errores de Metal y, casi siempre, rendirse.

Una palabra honesta sobre el hardware en LATAM

Hablemos claro: las Macs en América Latina son caras. Entre impuestos de importación, márgenes locales y tipo de cambio, una MacBook Pro M4 de 32 GB termina costando bastante más que en Estados Unidos. Vale la pena ser realistas:

  • Si ya tenés una Mac con chip M, cualquier modelo M1 o superior con al menos 16 GB sirve para arrancar.
  • Si estás pensando en comprar, el mejor costo-beneficio hoy es la Mac mini M4 con 24 GB o 32 GB. Sale bastante menos que una MacBook Pro y corre los modelos medianos con holgura. Si viajás a Miami, Santiago, Panamá o cualquier mercado con menos impuestos, suele convenir comprarla afuera.
  • Si el presupuesto no da por ahora, podés usar los mismos modelos Nemotron vía API en proveedores como Together AI, OpenRouter o DeepInfra por centavos de dólar por millón de tokens. No es local, pero es accesible.

Correr todo localmente tiene sentido cuando valorás privacidad, cumplimiento normativo (Ley Federal de Protección de Datos en México, Habeas Data en Argentina y Colombia, Ley 19.628 en Chile, Ley 25.326 y similares en el resto de la región) o simplemente no querés depender de buena conexión para trabajar.

Lo que vas a necesitar

Antes de empezar, confirmá que tenés:

  • Una Mac con chip M1 o superior (M2, M3, M4 o M5 funcionan)
  • macOS 14 (Sonoma) o más reciente
  • Python 3.10+ instalado (desde python.org o con brew install python)
  • Espacio en disco: unos 18 GB para el Nano en 4-bit, 32 GB en 8-bit, 70 GB o más para el Super
  • RAM recomendada: 16 GB para los modelos más chicos, 32 GB o más para el Nano 30B, 64 GB para trabajar cómodo

Camino 1: La forma fácil — LM Studio

Si solo querés chatear con Nemotron en una interfaz prolija, sin tocar la terminal:

  1. Descargá LM Studio para Mac (gratis).
  2. Abrí la app y buscá Nemotron 3 Nano.
  3. Elegí una versión MLX. El NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit es un excelente punto de partida.
  4. Tocá Download, después Load Model, y listo, ya podés empezar a conversar.

LM Studio además levanta una API local compatible con la de OpenAI en http://localhost:1234/v1. Cualquier herramienta que hable con OpenAI (Cursor, Continue, scripts propios) puede apuntar a tu Mac en lugar de a la nube.

Camino 2: La forma del desarrollador — mlx-lm

Para quien quiere más control, automatización e integración con aplicaciones propias, instalá mlx-lm, el paquete de Python oficial del equipo MLX.

Paso 1: Creá un entorno aislado

# Creá un entorno virtual para no contaminar el Python del sistema
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate

# Instalá mlx-lm
pip install --upgrade mlx-lm

Paso 2: Corré Nemotron desde la terminal

La forma más rápida de verificar que todo funciona:

mlx_lm.generate \
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit \
  --prompt "Explicá qué es una blockchain como si tuviera 10 años." \
  --max-tokens 400

La primera corrida descarga el modelo (unos minutos según tu conexión). Después queda en caché local y arranca en segundos.

Paso 3: Usalo desde Python

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)

messages = [
    {"role": "user", "content": "Escribí una función en Python que detecte palíndromos."}
]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)

Paso 4: Levantá un servidor local

Para usar Nemotron desde otras apps (extensiones de VS Code, Raycast, tu propia interfaz web), levantá el servidor compatible con la API de OpenAI:

mlx_lm.server \
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit \
  --port 8080

Ahora cualquier cliente que hable el protocolo de OpenAI puede llamar a http://localhost:8080/v1/chat/completions.

Una nota sobre el Nano 30B

El Nano 30B usa una arquitectura híbrida Mamba2 + Transformer, que todavía está madurando en mlx-lm. Si aparece algún error, las versiones 9B o 12B v2 están completamente soportadas y funcionan muy bien en una laptop. Las builds de la comunidad de LM Studio (lmstudio-community/...) suelen ser las conversiones MLX más probadas.

Casos de uso reales en contexto latinoamericano

Esto no es un truco para impresionar en una charla. Acá va lo que se puede hacer útil corriendo Nemotron localmente:

1. Asistente de programación privado

Conectá Cursor, Continue o Zed a tu mlx_lm.server local. Tenés autocomplete y chat sin mandar una sola línea de código a un servidor externo. Clave para quien trabaja con datos de clientes, sistemas bancarios, historias clínicas o cualquier cosa que toque normativa de protección de datos en serio.

2. Análisis de documentos confidenciales

Estudios jurídicos, contadores, profesionales de RR.HH. y médicos pueden alimentar contratos, balances, legajos e informes en un pipeline RAG local. Como Nemotron soporta contextos de hasta 1 millón de tokens, podés meter expedientes completos, historiales o codebases enteros sin tener que partirlos.

3. Agentes que funcionan offline

Nemotron fue entrenado específicamente para uso de herramientas. Combinándolo con frameworks como LangGraph o PydanticAI, puede consultar archivos locales, correr scripts o hacer queries a SQLite, todo sin internet. Útil para quien trabaja en zonas con conectividad inestable, viajando por el interior, o en entornos corporativos con restricciones de red.

4. Procesamiento en lote de texto en español

¿Necesitás resumir 5.000 reseñas de Mercado Libre, clasificar tickets de atención al cliente, traducir documentación o extraer información de facturas electrónicas? Armás un loop con el modelo local. El costo es el de la electricidad, no centavos por millón de tokens, y a escala eso pesa en el bolsillo, sobre todo cuando los proveedores de IA cobran en dólares.

5. Aprendizaje y experimentación

Como los pesos y las recetas son abiertas, Nemotron es uno de los mejores modelos para entender de verdad cómo funciona un LLM moderno. Se puede hacer fine-tuning en una Mac de 64 GB con las herramientas LoRA de MLX, inspeccionar patrones de atención e incluso intercambiar capas. Para universidades, bootcamps y comunidades de IA en la región, es un recurso enorme.

Tips prácticos que valen oro

  • Empezá con 4-bit. La pérdida de calidad es mínima en la mayoría de las tareas y el uso de memoria cae a la mitad. Subí a 6-bit u 8-bit solo si notás diferencia.
  • Mirá el Monitor de Actividad. Seguí el gráfico de «Presión de Memoria». Si se pone amarillo o rojo, bajá la cuantización o cambiá a un modelo más chico.
  • Cerrá Chrome. En serio. Un modelo de 30B y 80 pestañas abiertas no conviven bien en una Mac de 32 GB.
  • Usá el modo razonamiento con criterio. Nemotron 3 Nano tiene un modo de razonamiento integrado. Activalo para problemas complejos (matemática, código, lógica) y dejalo apagado para chat rápido. Lo controlás desde el prompt del sistema.

Por qué todo esto importa ahora

Tres movimientos se cruzaron en 2026 y volvieron posible este escenario:

  1. Los modelos abiertos maduraron en serio. Nemotron 3 Super compite con modelos propietarios de frontera en benchmarks de agentes, a un costo cerca de 10 veces menor.
  2. Apple Silicon evolucionó en la dirección correcta. Los chips M4 y M5 fueron optimizados específicamente para cargas de transformer.
  3. MLX maduró. Está a la altura, y a veces por encima, de llama.cpp en hardware Apple, con una API de Python mucho más amigable.

Resultado: una laptop que ya tenés (o que podés considerar comprar) corre hoy modelos que hace dos años exigían un servidor de USD 40.000.

Resumen de lo importante

  • Nemotron es la familia de modelos abiertos de NVIDIA, orientada a IA agéntica, con pesos, datos y recetas totalmente publicados.
  • MLX es el framework nativo de Apple, que aprovecha la memoria unificada para correr modelos grandes en Macs comunes.
  • La variante Nano 30B-A3B es el punto ideal: calidad de modelo grande, velocidad de modelo chico, entra en una Mac de 32 GB en 4-bit.
  • Dos caminos de instalación: LM Studio (interfaz gráfica, más fácil) o pip install mlx-lm (programático, flexible).
  • El valor real está en programación con privacidad, análisis de documentos confidenciales, agentes offline, procesamiento en lote y estudio.
  • Hardware ideal en LATAM: Mac mini M4 con 24–32 GB tiene el mejor costo-beneficio. MacBook Pro de 32–64 GB si necesitás movilidad.

La historia más grande detrás de todo esto es el cambio que representa. Los mejores modelos abiertos ya no son algo que alquilás por millón de tokens, son algo que corre en la laptop al lado tuyo. Que NVIDIA los publique, que Apple los optimice y que la comunidad open source los convierta es un momento discreto pero importante en la democratización de la IA. Especialmente para una región donde el dólar y los costos de infraestructura en la nube siguen pesando en el bolsillo de quien desarrolla.

Instalá uno y probalo. Te vas a sorprender.

Etiquetas: Apple SiliconLarge Language Models (LLM)MLXNemotron
EnviarEnviarCompartir
Aplicar.AI

Aplicar.AI

Historias relacionadas

The Qwen Family: Open-Weight AI from Alibaba

Qwen, la IA china de código abierto que está cambiando las reglas del juego

por Aplicar.AI
mayo 17, 2026
0

Mientras OpenAI, Anthropic y Google se pelean los titulares con sus modelos cerrados — y nos cobran en dólares cada mes —, una familia de inteligencia artificial china...

AnythingLLM, Open Source, Private, Local

Guía práctica de AnythingLLM: instalación, uso y casos de uso reales

por Aplicar.AI
mayo 15, 2026
0

Esta guía complementa el artículo anterior y muestra cómo instalar AnythingLLM paso a paso, cómo empezar a usarlo y qué tipo de proyectos puedes construir con él. 1....

Anthropic Claude Certified Architect

Anthropic lanzó la primera certificación oficial de Claude. ¿Vale la pena para los devs de LATAM?

por Aplicar.AI
mayo 11, 2026
0

Si trabajas en tecnología en América Latina, ya conoces la escena: candidato llega a la entrevista diciendo que "tiene experiencia con IA", y en la práctica solo ha...

Open-Weights LLMs 2026

Guía Práctica de LLMs Open-Weights 2026 – Parte 2

por Aplicar.AI
mayo 16, 2026
0

La Parte 2 desglosa la economía del dimensionamiento de los LLM modernos, así como los costos reales de memoria y cómputo que implica ejecutar los modelos actuales. Dimensionamiento:...

Siguiente entrada
AnythingLLM, Open Source, Private, Local

Guía práctica de AnythingLLM: instalación, uso y casos de uso reales

Deja una respuesta Cancelar la respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Aprender & Aplicar IA

Aplicar.AI logo

La IA avanza rápido. Te ayudamos a mantenerte al día, entender lo que importa y aplicarla — todo lo que necesitas para aprender y aplicar IA está aquí.

Entradas recientes

  • Qwen, la IA china de código abierto que está cambiando las reglas del juego
  • Anthropic Mythos: La IA tan poderosa que ni siquiera su creador se atreve a lanzarla
  • Guía práctica de AnythingLLM: instalación, uso y casos de uso reales

Categorías

  • Alibaba
  • Amazon AWS
  • Anthropic
  • Apple
  • Código Abierto
  • Código con IA
  • Cómputo de IA
  • DeepSeek
  • Google
  • IA Agéntica
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Vídeo
  • Inferencia
  • Microsoft
  • MiniMax
  • Mistral AI
  • Moonshot AI
  • Noticias de IA
  • NVIDIA
  • OpenAI
  • Utilidades IA

Etiquetas

AI benchmarks Apple Silicon AWS Bedrock Certificación en IA Ciberseguridad con IA Claude AI Claude Mythos Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemini AI Gemma 4 Kimi K2 Large Language Models (LLM) Llama 4 Magistral Mistral MLX Nemotron Nivel Avanzado OpenAI GPT Qwen Qwen-Coder Qwen-Image Qwen-Math Qwen-Omni Qwen-VL Tensor Processing Unit (TPU) Trainium Tutoriales Wan
  • English
  • Español
  • Português
  • 中文 (中国)

© 2026 Aplicar.AI - Aprender & Aplicar AI

¡Bienvenido de vuelta!

Inicia sesión en tu cuenta

¿Olvidaste tu contraseña?

Recuperar contraseña

Ingresa los datos para restablecer tu contraseña

Entrar

Utilizamos cookies para ofrecerte la mejor experiencia en nuestro sitio web.
Puedes obtener más información sobre las cookies que utilizamos o desactivarlas en .

Sin resultados
Ver todos los resultados
  • Inicio
  • Noticias de IA
  • IA Vídeo
  • IA Audio
  • IA Local
  • IA Vertical
  • IA Agéntica
  • Código con IA
  • Utilidades IA
  • Proveedores de IA
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • Alibaba
    • MiniMax
  • Código Abierto
  • Glosario de IA
  • Español
    • English
    • Español
    • Português
    • 中文 (中国)

© 2026 Aplicar.AI - Aprender & Aplicar AI

Resumen de privacidad
Aprender & Aplicar AI

Esta web utiliza cookies para que podamos ofrecerte la mejor experiencia de usuario posible. La información de las cookies se almacena en tu navegador y realiza funciones tales como reconocerte cuando vuelves a nuestra web o ayudar a nuestro equipo a comprender qué secciones de la web encuentras más interesantes y útiles.

Necessary

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.

Desarrollado por  GDPR Cookie Compliance