在 Mac 上使用 MLX 运行 NVIDIA 的 Nemotron 开放模型

“Apple Silicon” 和 “NVIDIA AI” 出现在同一个句子里，过去感觉像是一种矛盾。但在 2026 年，这已成为一个工作流，而且效果出奇地好。NVIDIA 的开源权重 Nemotron 模型现在可以在你的 M1、M2、M3、M4 或 M5 Mac 上，使用苹果的 MLX 框架原生运行，无需 GPU，无需云账单，数据也不会离开你的笔记本电脑。

本指南将带你了解 Nemotron 究竟是什么，为什么 MLX 能让它在 Mac 上运行飞快，如何在几分钟内完成安装，以及它在实际应用中的用途。

通俗来说，Nemotron 是什么？

将 Nemotron 视为 NVIDIA 对 Llama、Qwen 和 Mistral 的回应：一个 开源权重的大型语言模型 系列，任何人都可以下载、检查、微调，并将其用于商业产品。

Nemotron 的有趣之处在于：

真正的开放。 NVIDIA 发布了权重、训练数据集以及构建它们所用的配方。大多数“开放”模型只发布权重。
为智能体而生。 这些模型经过调整，能够执行多步骤工作——调用工具、浏览网页、运行代码——而不仅仅是聊天。
设计高效。 它们采用了混合专家（MoE）架构，这有点像一家医院：你不会为每个病人都召集所有医生，只需召集相关的专家即可。

当前产品线概览：

模型	总参数量	激活参数量	最适合
Nemotron 3 Nano 9B / 12B v2	9B / 12B	密集	笔记本，快速聊天，设备端智能体
Nemotron 3 Nano 30B-A3B	30B	3.5B	Apple Silicon 的甜点级选择
Nemotron 3 Nano Omni	30B	3B	多模态（文本 + 图像 + 音频 + 视频）
Nemotron 3 Super	120B	12B	工作站级，长上下文智能体

对于 Mac 来说，30B-A3B Nano 模型将是大多数人的首选。尽管标签是“30B”，但每个 token 只激活 35 亿个参数，因此它的文本生成速度接近 3B 模型，而推理能力却堪比更大的模型。

为什么 MLX 能改变 Mac 上的游戏规则

MLX 是苹果公司为 M 系列芯片量身打造的开源机器学习框架。其关键技巧在于：统一内存。在 Mac 上，CPU 和 GPU 共享同一块 RAM，因此一台 36 GB 的 MacBook Pro 可以加载一个通常需要 24+ GB 专用显存的 30B 模型。

在实践中，这意味着：

一台 基础版 M4 Mac mini 现在已经成为一台可行的 LLM 开发机。
一台 32–64 GB 的 MacBook Pro 可以以 4-bit 量化运行完整的 Nemotron 3 Nano 30B 模型，速度大约为 80–100 tokens/秒。
报告的基准测试显示，在使用 MLX 运行 Nemotron 时，M4 Pro 的性能超过了 M2 Max——最新的苹果芯片已针对这类模型进行了专门优化。

与两年前相比，当时在 Mac 上本地运行 30B 模型要么需要痛苦的 llama.cpp 编译，要么只能直接放弃。

你需要准备什么

开始之前，请确认你拥有：

一台搭载 M1 或更新 的 Apple Silicon 芯片的 Mac（M2、M3、M4 或 M5 均可）
macOS 14 (Sonoma) 或更高版本
已安装 Python 3.10+（通过 python.org 或 brew install python）
空闲磁盘空间：4-bit Nano 约需 18 GB，8-bit 约需 32 GB，Super 约需 70+ GB
内存建议：16 GB 可运行较小的变体，推荐 32 GB+ 用于 30B Nano，64 GB+ 更舒适，128 GB+ 如果你想尝试 Super

方法一：简易路径 —— LM Studio

如果你只想在干净的 UI 中与 Nemotron 聊天，而无需接触终端：

为 Mac 下载 LM Studio（免费）。
打开应用，搜索 Nemotron 3 Nano。
选择一个 MLX 变体 —— NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit 是一个不错的起点。
点击下载，然后点击 加载模型，最后开始聊天。

LM Studio 还在 http://localhost:1234/v1 上暴露了一个本地兼容 OpenAI 的 API，这意味着任何与 OpenAI 对话的工具（Cursor、Continue、自定义脚本）都可以指向你的 Mac 而不是云端。

方法二：开发者路径 —— mlx-lm

为了获得更多控制权、脚本编写能力以及集成到自己的应用中，请安装 mlx-lm，这是 MLX 团队的官方 Python 包。

第 1 步：设置一个干净的环境

# 创建一个虚拟环境，以免污染系统 Python
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate

# 安装 mlx-lm
pip install --upgrade mlx-lm

第 2 步：从命令行运行 Nemotron

验证一切正常的最快方法：

mlx_lm.generate 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --prompt "请用10岁小孩能听懂的话解释一下量子纠缠。" 
  --max-tokens 400

首次运行会下载模型（网络连接良好时需几分钟）。之后，模型会缓存到本地，几秒钟即可启动。

第 3 步：从 Python 中使用它

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)

messages = [
    {"role": "user", "content": "写一个检测回文的 Python 函数。"}
]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)

第 4 步：将其作为本地服务器运行

要从其他应用（VS Code 扩展、Raycast、你自己的 Web UI）使用 Nemotron，请启动内置的 OpenAI 兼容服务器：

mlx_lm.server 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --port 8080

现在，任何支持 OpenAI API 的客户端都可以访问 http://localhost:8080/v1/chat/completions。

关于 30B Nano 的说明

30B Nano 使用的是 混合 Mamba2-Transformer 架构，这个架构在 mlx-lm 中仍在完善中。如果你遇到问题，9B 或 12B v2 变体已得到完全支持，并且非常适合大多数笔记本工作流。LM Studio 社区构建版本（lmstudio-community/...）通常是经过最全面测试的 MLX 转换版本。

实际应用案例

这不仅仅是个花哨的演示。以下是人们在 Mac 上本地使用 Nemotron 的实际应用：

1. 私人编码助手

将 Cursor、Continue 或 Zed 指向你的本地 mlx_lm.server。你将获得自动补全和聊天功能，且绝不会将一行代码发送给第三方——这对于客户端工作、受监管行业或仅仅为了安心都非常有用。

2. 针对敏感数据的文档问答

将法律合同、医疗记录或内部 HR 文档输入本地的 RAG 流水线。由于 Nemotron 支持高达 100 万 token 的上下文窗口，你可以直接将整个代码库或案件文件塞进去，而无需将其分割。

3. 离线智能体工作流

Nemotron 是专门为工具使用进行后期训练的。将其连接到 LangGraph 或 PydanticAI 等框架，让它浏览本地文件、运行脚本或查询 SQLite 数据库——所有这些都无需互联网连接。非常适合在飞机上和隔离环境中使用。

4. 批量文本处理

需要总结 5,000 条客户评论、分类支持工单或翻译文档？使用你的本地模型循环处理数据集。成本是电费，而不是每百万 token 0.30 美元——数字虽小，但在实际工作负载中累积起来就多了。

5. 学习与实验

由于权重和训练配方都是开放的，Nemotron 是真正理解模型的最佳选择之一。你可以使用 MLX 的 LoRA 工具在 64 GB Mac 上对其进行微调，检查注意力模式，或调整层的位置。

一些实用技巧

从 4-bit 开始。 对于大多数任务来说，质量损失很小，而内存使用会大幅下降。如果注意到质量问题，再升级到 6-bit 或 8-bit。
关注活动监视器。 留意“内存压力”图表。如果它变黄或变红，请切换到更小的量化版本或更小的模型。
关闭 Chrome。 真的。一个 30B 模型和 80 个浏览器标签页在 32 GB 的机器上是无法和平共存的。
使用推理切换。 Nemotron 3 Nano 有一个内置的推理模式 —— 在解决复杂问题时打开它，在快速聊天时关闭它。系统提示词控制着这个功能。

为什么现在这很重要

三个趋势在 2026 年汇聚在一起，使得这一切成为可能：

开放权重变得严肃了。 Nemotron 3 Super 在智能体基准测试上真正能与封闭的领先模型竞争，成本仅为后者的约十分之一。
Apple Silicon 持续变得更好。 M4 和 M5 代芯片专门优化了其 GPU 和神经引擎，以应对 Transformer 工作负载。
MLX 成熟了。 它现在在 Apple 硬件上与 llama.cpp 具有竞争力——有时甚至更快，并且拥有更简洁的 Python 易用性。

结果是：你现有的单台笔记本电脑，就能运行两年前需要一台 40,000 美元服务器才能运行的模型。

关键要点

Nemotron 是 NVIDIA 的开放权重模型家族，专为高效的智能体 AI 设计，完全公开权重、数据和配方。
MLX 是苹果的原生 ML 框架，它利用统一内存在标准 Mac 上运行大型模型。
30B-A3B Nano 变体 是甜点级选择：大型模型的质量，小型模型的速度，适合 4-bit 下 32 GB 的 Mac。
两种安装路径：LM Studio（图形界面，最简单）或 pip install mlx-lm（可编写脚本，更灵活）。
真正的价值 在于隐私敏感的编码、文档分析、离线智能体、批量处理和学习。
硬件甜点区：32–64 GB 的 M 系列 Mac。更多内存可以解锁更大的模型，但即使是基础版 M4 mini 现在也真正有用武之地了。

其背后更大的故事是它所代表的转变。最好的开放模型不再是按百万 token 租用的东西——它们可以在你身边的笔记本电脑上运行。NVIDIA 发布它们，苹果为它们进行优化，开源社区转换它们，这是 AI 民主化进程中一个低调但意义重大的时刻。

去安装一个亲自体验一下吧。

标签: Large Language Models (LLM)MLX Nemotron