在 Mac 上使用 MLX 运行 NVIDIA Nemotron 开放模型

在 Mac 上使用 MLX 运行 NVIDIA Nemotron 开放模型，Apple Silicon 和 NVIDIA AI 同时出现曾显得矛盾。但到了 2026 年，这已成为一种工作流程——而且效果出奇地好。NVIDIA 的开放权重 Nemotron 模型现在可以在你的 M1、M2、M3、M4 或 M5 Mac 上，借助 Apple 的 MLX 框架原生运行，无需 GPU、没有云账单，且数据不会离开你的笔记本。

本指南将带你了解 Nemotron 究竟是什么、为何 MLX 能使它在 Mac 上运行得如此之快、如何在几分钟内完成安装，以及你可以用它做的实际工作。

简单来说，Nemotron 是什么？

你可以将 Nemotron 视为 NVIDIA 对 Llama、Qwen 和 Mistral 的回应：它是一个 开放权重的大语言模型 系列，任何人都可以下载、检查、微调并用于商业产品。

Nemotron 的亮点：

真正的开放。 NVIDIA 公开发布了权重、训练数据集以及构建它们的配方。大多数“开放”模型仅发布权重。
为智能体而生。 这些模型经过调优，能够执行多步骤任务——调用工具、浏览、运行代码——而不仅仅是聊天。
设计高效。 它们采用混合专家（MoE）架构，有点像医院：你不会为每个病人召集所有医生，只会呼叫相关的专家。

当前产品阵容一览：

模型	总参数	激活参数	最适合
Nemotron 3 Nano 9B / 12B v2	9B / 12B	密集	笔记本、快速聊天、端侧智能体
Nemotron 3 Nano 30B-A3B	30B	3.5B	Apple Silicon 的最佳选择
Nemotron 3 Nano Omni	30B	3B	多模态（文本 + 图像 + 音频 + 视频）
Nemotron 3 Super	120B	12B	工作站级、长上下文智能体

对于 Mac，30B-A3B Nano 是大多数人会选择的模型。尽管标着“30B”，但每个 token 只有 35 亿个参数处于激活状态，因此它生成文本的速度接近 3B 模型，推理能力却堪比更大的模型。

为何 MLX 改变了 Mac 的游戏规则

MLX 是 Apple 专为 M 系列芯片构建的开源机器学习框架。关键诀窍：统一内存。在 Mac 上，CPU 和 GPU 共享同一块内存，因此 36 GB 的 MacBook Pro 可以加载 30B 模型，而通常这需要配备 24 GB 以上显存的专用 GPU。

这意味着：

一台 基础款 M4 Mac mini 现已成为可行的 LLM 开发机器。
一台 32–64 GB 的 MacBook Pro 可以运行完整的 Nemotron 3 Nano 30B，采用 4 位量化，速度约每秒 80–100 个 token。
据基准测试报告，M4 Pro 在 MLX 上运行 Nemotron 的性能超过了 M2 Max——最近的 Apple 芯片对此类模型进行了专门优化。

与之相比，两年前在 Mac 上本地运行 30B 模型，要么意味着痛苦的 llama.cpp 编译过程，要么直接放弃。

你需要准备什么

开始前，请检查你是否有：

一台配备 M1 或更新 Apple Silicon 芯片的 Mac（M2、M3、M4 或 M5 均可）
macOS 14 (Sonoma) 或更高版本
Python 3.10+ 已安装（通过 python.org 或 brew install python）
可用磁盘空间：4 位 Nano 约需 18 GB，8 位约需 32 GB，Super 需 70 GB 以上
内存建议：较小变体 16 GB 即可，30B Nano 建议 32 GB 以上，从容运行建议 64 GB 以上，若想尝试 Super 需 128 GB 以上

方法一：简单途径 —— LM Studio

如果你只想在清爽的界面中与 Nemotron 聊天，而不用碰终端：

下载 LM Studio for Mac（免费）。
打开应用，搜索 Nemotron 3 Nano。
选择一个 MLX 变体——NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit 是个很好的起点。
点击 Download，然后 Load Model，即可开始聊天。

LM Studio 还在 http://localhost:1234/v1 上提供了与 OpenAI 兼容的本地 API，这意味着任何与 OpenAI 通信的工具（Cursor、Continue、自定义脚本）都可以转而指向你的 Mac。

方法二：开发者途径 —— mlx-lm

若需要更多掌控力、脚本化以及集成到自己的应用中，请安装 MLX 团队的官方 Python 包 mlx-lm。

第 1 步：设置干净的环境

# 创建虚拟环境，以免污染系统 Python
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate

# 安装 mlx-lm
pip install --upgrade mlx-lm

第 2 步：从命令行运行 Nemotron

验证一切是否正常的最快方式：

mlx_lm.generate 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --prompt "Explain quantum entanglement to a 10-year-old." 
  --max-tokens 400

首次运行会下载模型（网速良好时需几分钟）。之后，它会被本地缓存，几秒内即可启动。

第 3 步：从 Python 中使用

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)

messages = [
    {"role": "user", "content": "Write a Python function that detects palindromes."}
]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)

第 4 步：作为本地服务器运行

要从其他应用（VS Code 插件、Raycast、自己的 Web 界面）使用 Nemotron，启动内置的 OpenAI 兼容服务器：

mlx_lm.server 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --port 8080

现在，任何使用 OpenAI API 的客户端都可以访问 http://localhost:8080/v1/chat/completions。

关于 30B Nano 的说明

30B Nano 采用了 Mamba2-Transformer 混合 架构，在 mlx-lm 中仍在完善中。若你遇到问题，9B 或 12B v2 变体完全支持，且非常适合大多数笔记本工作流。LM Studio 社区构建的版本（lmstudio-community/...）通常是经过最彻底测试的 MLX 转换。

实际使用案例

这并非只是花拳绣腿。以下是人们用 Mac 上的本地 Nemotron 实际所做之事：

1. 私密编程助手

将 Cursor、Continue 或 Zed 指向你的本地 mlx_lm.server。你将获得自动补全和聊天功能，且一行代码都不会发送给第三方——适用于客户工作、受监管行业，或单纯图个安心。

2. 针对敏感数据的文档问答

将法律合同、医疗记录或内部人力资源文档输入本地 RAG 流水线。由于 Nemotron 支持高达 100 万 token 的上下文窗口，你可以直接塞入整个代码库或案卷，而无需拆分。

3. 离线智能体工作流

Nemotron 经过专门的后训练，擅长使用工具。将其与 LangGraph 或 PydanticAI 等框架结合，让它浏览本地文件、运行脚本或查询 SQLite 数据库——全都在无网络连接的情况下完成。非常适合飞机上和气隙环境。

4. 批量文本处理

需要总结 5000 条客户评论、分类工单或翻译文档？用你的本地模型循环处理数据集。成本仅为电费，而非每百万 token 0.30 美元——数目虽小，但实际工作负载下会积少成多。

5. 学习与实验

由于权重和训练配方开放，Nemotron 是真正能够理解的最佳模型之一。你可以在 64 GB 的 Mac 上使用 MLX 的 LoRA 工具对其进行微调、检查注意力模式或交换层。

一些实用建议

从 4 位开始。 对大多数任务而言质量损失极小，且内存占用大幅下降。若发现质量问题，再升至 6 位或 8 位。
留意活动监视器。 观察“内存压力”图表。若变成黄色或红色，请降至更低的量化或更小的模型。
关闭 Chrome。 说真的。30B 模型和 80 个浏览器标签在 32 GB 的机器上无法和平共处。
使用推理开关。 Nemotron 3 Nano 内置推理模式——遇到复杂问题时开启，快速聊天时关闭。系统提示词可以控制此功能。

为何此事当下如此重要

三大趋势在 2026 年汇聚，使之成为可能：

开放权重走向成熟。 Nemotron 3 Super 在智能体基准测试中真正与闭源前沿模型展开竞争，且成本大约低 10 倍。
Apple Silicon 不断进步。 M4 和 M5 代产品专门针对 Transformer 工作负载优化了 GPU 和神经引擎。
MLX 趋于成熟。 如今在 Apple 硬件上，它已可与 llama.cpp 一较高下——有时甚至更快，且 Python 生态更简洁。

结果是：你现有的笔记本电脑即可运行两年前需要 4 万美元服务器的模型。

关键要点

Nemotron 是 NVIDIA 的开放权重模型家族，专为高效的智能体 AI 设计，权重、数据和配方完全公开。
MLX 是 Apple 的原生机器学习框架，利用统一内存让普通 Mac 也能运行大型模型。
30B-A3B Nano 变体 是最佳之选：大模型的质量，小模型的速度，4 位量化后可运行在 32 GB 的 Mac 上。
两种安装方式：LM Studio（图形界面，最简单）或 pip install mlx-lm（可脚本化，灵活）。
实际价值 在于隐私敏感型编程、文档分析、离线智能体、批处理和学习。
硬件最佳配置：32–64 GB M 系列 Mac。更多内存可解锁更大模型，但即便是基础款 M4 mini 也真正堪用了。

更宏大的叙事在于其所代表的转变。最好的开放模型不再是你按百万 token 租用的东西——它们就在你身旁的笔记本上运行。NVIDIA 将其发布，Apple 为其优化，开源社区进行转换，这是 AI 民主化进程中一个静默却意义重大的时刻。

去安装一个，亲自体验吧。

标签: MLX Nemotron 大语言模型（LLM）