在 Mac 上使用 MLX 运行 NVIDIA Nemotron 开放模型,Apple Silicon 和 NVIDIA AI 同时出现曾显得矛盾。但到了 2026 年,这已成为一种工作流程——而且效果出奇地好。NVIDIA 的开放权重 Nemotron 模型现在可以在你的 M1、M2、M3、M4 或 M5 Mac 上,借助 Apple 的 MLX 框架原生运行,无需 GPU、没有云账单,且数据不会离开你的笔记本。
本指南将带你了解 Nemotron 究竟是什么、为何 MLX 能使它在 Mac 上运行得如此之快、如何在几分钟内完成安装,以及你可以用它做的实际工作。
简单来说,Nemotron 是什么?
你可以将 Nemotron 视为 NVIDIA 对 Llama、Qwen 和 Mistral 的回应:它是一个 开放权重的大语言模型 系列,任何人都可以下载、检查、微调并用于商业产品。
Nemotron 的亮点:
- 真正的开放。 NVIDIA 公开发布了权重、训练数据集 以及 构建它们的配方。大多数“开放”模型仅发布权重。
- 为智能体而生。 这些模型经过调优,能够执行多步骤任务——调用工具、浏览、运行代码——而不仅仅是聊天。
- 设计高效。 它们采用混合专家(MoE)架构,有点像医院:你不会为每个病人召集所有医生,只会呼叫相关的专家。
当前产品阵容一览:
| 模型 | 总参数 | 激活参数 | 最适合 |
|---|---|---|---|
| Nemotron 3 Nano 9B / 12B v2 | 9B / 12B | 密集 | 笔记本、快速聊天、端侧智能体 |
| Nemotron 3 Nano 30B-A3B | 30B | 3.5B | Apple Silicon 的最佳选择 |
| Nemotron 3 Nano Omni | 30B | 3B | 多模态(文本 + 图像 + 音频 + 视频) |
| Nemotron 3 Super | 120B | 12B | 工作站级、长上下文智能体 |
对于 Mac,30B-A3B Nano 是大多数人会选择的模型。尽管标着“30B”,但每个 token 只有 35 亿个参数处于激活状态,因此它生成文本的速度接近 3B 模型,推理能力却堪比更大的模型。
为何 MLX 改变了 Mac 的游戏规则
MLX 是 Apple 专为 M 系列芯片构建的开源机器学习框架。关键诀窍:统一内存。在 Mac 上,CPU 和 GPU 共享同一块内存,因此 36 GB 的 MacBook Pro 可以加载 30B 模型,而通常这需要配备 24 GB 以上显存的专用 GPU。
这意味着:
- 一台 基础款 M4 Mac mini 现已成为可行的 LLM 开发机器。
- 一台 32–64 GB 的 MacBook Pro 可以运行完整的 Nemotron 3 Nano 30B,采用 4 位量化,速度约每秒 80–100 个 token。
- 据基准测试报告,M4 Pro 在 MLX 上运行 Nemotron 的性能超过了 M2 Max——最近的 Apple 芯片对此类模型进行了专门优化。
与之相比,两年前在 Mac 上本地运行 30B 模型,要么意味着痛苦的 llama.cpp 编译过程,要么直接放弃。
你需要准备什么
开始前,请检查你是否有:
- 一台配备 M1 或更新 Apple Silicon 芯片的 Mac(M2、M3、M4 或 M5 均可)
- macOS 14 (Sonoma) 或更高版本
- Python 3.10+ 已安装(通过 python.org 或
brew install python) - 可用磁盘空间:4 位 Nano 约需 18 GB,8 位约需 32 GB,Super 需 70 GB 以上
- 内存建议:较小变体 16 GB 即可,30B Nano 建议 32 GB 以上,从容运行建议 64 GB 以上,若想尝试 Super 需 128 GB 以上
方法一:简单途径 —— LM Studio
如果你只想在清爽的界面中与 Nemotron 聊天,而不用碰终端:
- 下载 LM Studio for Mac(免费)。
- 打开应用,搜索
Nemotron 3 Nano。 - 选择一个 MLX 变体——
NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit是个很好的起点。 - 点击 Download,然后 Load Model,即可开始聊天。
LM Studio 还在 http://localhost:1234/v1 上提供了与 OpenAI 兼容的本地 API,这意味着任何与 OpenAI 通信的工具(Cursor、Continue、自定义脚本)都可以转而指向你的 Mac。
方法二:开发者途径 —— mlx-lm
若需要更多掌控力、脚本化以及集成到自己的应用中,请安装 MLX 团队的官方 Python 包 mlx-lm。
第 1 步:设置干净的环境
# 创建虚拟环境,以免污染系统 Python
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate
# 安装 mlx-lm
pip install --upgrade mlx-lm
第 2 步:从命令行运行 Nemotron
验证一切是否正常的最快方式:
mlx_lm.generate
--model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit
--prompt "Explain quantum entanglement to a 10-year-old."
--max-tokens 400
首次运行会下载模型(网速良好时需几分钟)。之后,它会被本地缓存,几秒内即可启动。
第 3 步:从 Python 中使用
from mlx_lm import load, generate
model, tokenizer = load(
"mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)
messages = [
{"role": "user", "content": "Write a Python function that detects palindromes."}
]
prompt = tokenizer.apply_chat_template(
messages, add_generation_prompt=True, tokenize=False
)
response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)
第 4 步:作为本地服务器运行
要从其他应用(VS Code 插件、Raycast、自己的 Web 界面)使用 Nemotron,启动内置的 OpenAI 兼容服务器:
mlx_lm.server
--model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit
--port 8080
现在,任何使用 OpenAI API 的客户端都可以访问 http://localhost:8080/v1/chat/completions。
关于 30B Nano 的说明
30B Nano 采用了 Mamba2-Transformer 混合 架构,在 mlx-lm 中仍在完善中。若你遇到问题,9B 或 12B v2 变体完全支持,且非常适合大多数笔记本工作流。LM Studio 社区构建的版本(lmstudio-community/...)通常是经过最彻底测试的 MLX 转换。
实际使用案例
这并非只是花拳绣腿。以下是人们用 Mac 上的本地 Nemotron 实际所做之事:
1. 私密编程助手
将 Cursor、Continue 或 Zed 指向你的本地 mlx_lm.server。你将获得自动补全和聊天功能,且一行代码都不会发送给第三方——适用于客户工作、受监管行业,或单纯图个安心。
2. 针对敏感数据的文档问答
将法律合同、医疗记录或内部人力资源文档输入本地 RAG 流水线。由于 Nemotron 支持高达 100 万 token 的上下文窗口,你可以直接塞入整个代码库或案卷,而无需拆分。
3. 离线智能体工作流
Nemotron 经过专门的后训练,擅长使用工具。将其与 LangGraph 或 PydanticAI 等框架结合,让它浏览本地文件、运行脚本或查询 SQLite 数据库——全都在无网络连接的情况下完成。非常适合飞机上和气隙环境。
4. 批量文本处理
需要总结 5000 条客户评论、分类工单或翻译文档?用你的本地模型循环处理数据集。成本仅为电费,而非每百万 token 0.30 美元——数目虽小,但实际工作负载下会积少成多。
5. 学习与实验
由于权重和训练配方开放,Nemotron 是真正能够 理解 的最佳模型之一。你可以在 64 GB 的 Mac 上使用 MLX 的 LoRA 工具对其进行微调、检查注意力模式或交换层。
一些实用建议
- 从 4 位开始。 对大多数任务而言质量损失极小,且内存占用大幅下降。若发现质量问题,再升至 6 位或 8 位。
- 留意活动监视器。 观察“内存压力”图表。若变成黄色或红色,请降至更低的量化或更小的模型。
- 关闭 Chrome。 说真的。30B 模型和 80 个浏览器标签在 32 GB 的机器上无法和平共处。
- 使用推理开关。 Nemotron 3 Nano 内置推理模式——遇到复杂问题时开启,快速聊天时关闭。系统提示词可以控制此功能。
为何此事当下如此重要
三大趋势在 2026 年汇聚,使之成为可能:
- 开放权重走向成熟。 Nemotron 3 Super 在智能体基准测试中真正与闭源前沿模型展开竞争,且成本大约低 10 倍。
- Apple Silicon 不断进步。 M4 和 M5 代产品专门针对 Transformer 工作负载优化了 GPU 和神经引擎。
- MLX 趋于成熟。 如今在 Apple 硬件上,它已可与 llama.cpp 一较高下——有时甚至更快,且 Python 生态更简洁。
结果是:你现有的笔记本电脑即可运行两年前需要 4 万美元服务器的模型。
关键要点
- Nemotron 是 NVIDIA 的开放权重模型家族,专为高效的智能体 AI 设计,权重、数据和配方完全公开。
- MLX 是 Apple 的原生机器学习框架,利用统一内存让普通 Mac 也能运行大型模型。
- 30B-A3B Nano 变体 是最佳之选:大模型的质量,小模型的速度,4 位量化后可运行在 32 GB 的 Mac 上。
- 两种安装方式:LM Studio(图形界面,最简单)或
pip install mlx-lm(可脚本化,灵活)。 - 实际价值 在于隐私敏感型编程、文档分析、离线智能体、批处理和学习。
- 硬件最佳配置:32–64 GB M 系列 Mac。更多内存可解锁更大模型,但即便是基础款 M4 mini 也真正堪用了。
更宏大的叙事在于其所代表的转变。最好的开放模型不再是你按百万 token 租用的东西——它们就在你身旁的笔记本上运行。NVIDIA 将其发布,Apple 为其优化,开源社区进行转换,这是 AI 民主化进程中一个静默却意义重大的时刻。
去安装一个,亲自体验吧。








