• Latest
Running NVIDIA's Nemotron Open Models on Your Mac with MLX

在 Mac 上使用 MLX 运行 NVIDIA 的 Nemotron 开放模型

11 5 月, 2026
The Qwen Family: Open-Weight AI from Alibaba

通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?

17 5 月, 2026
Anthropic Claude Mythos Preview

Anthropic 神话:强大到被雪藏的 AI 模型

16 5 月, 2026
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
SAVED POSTS
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
aplicar.AI
No Result
View All Result
首页 AI提供商 Apple
Running NVIDIA's Nemotron Open Models on Your Mac with MLX

Running NVIDIA's Nemotron Open Models on Your Mac with MLX

在 Mac 上使用 MLX 运行 NVIDIA 的 Nemotron 开放模型

Aplicar.AI by Aplicar.AI
11 5 月, 2026
in Apple, NVIDIA, 开源AI, 智能体 AI, 本地AI, 模型推理
0
Share via emailShare via WhatsappShare to Facebook
  • EnglishEnglish
  • EspañolEspañol
  • PortuguêsPortuguês
  • 中文 (中国)中文 (中国)

“Apple Silicon” 和 “NVIDIA AI” 出现在同一个句子里,过去感觉像是一种矛盾。但在 2026 年,这已成为一个工作流,而且效果出奇地好。NVIDIA 的开源权重 Nemotron 模型现在可以在你的 M1、M2、M3、M4 或 M5 Mac 上,使用苹果的 MLX 框架原生运行,无需 GPU,无需云账单,数据也不会离开你的笔记本电脑。

本指南将带你了解 Nemotron 究竟是什么,为什么 MLX 能让它在 Mac 上运行飞快,如何在几分钟内完成安装,以及它在实际应用中的用途。

通俗来说,Nemotron 是什么?

将 Nemotron 视为 NVIDIA 对 Llama、Qwen 和 Mistral 的回应:一个 开源权重的大型语言模型 系列,任何人都可以下载、检查、微调,并将其用于商业产品。

Nemotron 的有趣之处在于:

  • 真正的开放。 NVIDIA 发布了权重、训练数据集以及构建它们所用的配方。大多数“开放”模型只发布权重。
  • 为智能体而生。 这些模型经过调整,能够执行多步骤工作——调用工具、浏览网页、运行代码——而不仅仅是聊天。
  • 设计高效。 它们采用了混合专家(MoE)架构,这有点像一家医院:你不会为每个病人都召集所有医生,只需召集相关的专家即可。

当前产品线概览:

模型总参数量激活参数量最适合
Nemotron 3 Nano 9B / 12B v29B / 12B密集笔记本,快速聊天,设备端智能体
Nemotron 3 Nano 30B-A3B30B3.5BApple Silicon 的甜点级选择
Nemotron 3 Nano Omni30B3B多模态(文本 + 图像 + 音频 + 视频)
Nemotron 3 Super120B12B工作站级,长上下文智能体

对于 Mac 来说,30B-A3B Nano 模型将是大多数人的首选。尽管标签是“30B”,但每个 token 只激活 35 亿个参数,因此它的文本生成速度接近 3B 模型,而推理能力却堪比更大的模型。

为什么 MLX 能改变 Mac 上的游戏规则

MLX 是苹果公司为 M 系列芯片量身打造的开源机器学习框架。其关键技巧在于:统一内存。在 Mac 上,CPU 和 GPU 共享同一块 RAM,因此一台 36 GB 的 MacBook Pro 可以加载一个通常需要 24+ GB 专用显存的 30B 模型。

在实践中,这意味着:

  • 一台 基础版 M4 Mac mini 现在已经成为一台可行的 LLM 开发机。
  • 一台 32–64 GB 的 MacBook Pro 可以以 4-bit 量化运行完整的 Nemotron 3 Nano 30B 模型,速度大约为 80–100 tokens/秒。
  • 报告的基准测试显示,在使用 MLX 运行 Nemotron 时,M4 Pro 的性能超过了 M2 Max——最新的苹果芯片已针对这类模型进行了专门优化。

与两年前相比,当时在 Mac 上本地运行 30B 模型要么需要痛苦的 llama.cpp 编译,要么只能直接放弃。

你需要准备什么

开始之前,请确认你拥有:

  • 一台搭载 M1 或更新 的 Apple Silicon 芯片的 Mac(M2、M3、M4 或 M5 均可)
  • macOS 14 (Sonoma) 或更高版本
  • 已安装 Python 3.10+(通过 python.org 或 brew install python)
  • 空闲磁盘空间:4-bit Nano 约需 18 GB,8-bit 约需 32 GB,Super 约需 70+ GB
  • 内存建议:16 GB 可运行较小的变体,推荐 32 GB+ 用于 30B Nano,64 GB+ 更舒适,128 GB+ 如果你想尝试 Super

方法一:简易路径 —— LM Studio

如果你只想在干净的 UI 中与 Nemotron 聊天,而无需接触终端:

  1. 为 Mac 下载 LM Studio(免费)。
  2. 打开应用,搜索 Nemotron 3 Nano。
  3. 选择一个 MLX 变体 —— NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit 是一个不错的起点。
  4. 点击 下载,然后点击 加载模型,最后开始聊天。

LM Studio 还在 http://localhost:1234/v1 上暴露了一个本地兼容 OpenAI 的 API,这意味着任何与 OpenAI 对话的工具(Cursor、Continue、自定义脚本)都可以指向你的 Mac 而不是云端。

方法二:开发者路径 —— mlx-lm

为了获得更多控制权、脚本编写能力以及集成到自己的应用中,请安装 mlx-lm,这是 MLX 团队的官方 Python 包。

第 1 步:设置一个干净的环境

# 创建一个虚拟环境,以免污染系统 Python
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate

# 安装 mlx-lm
pip install --upgrade mlx-lm

第 2 步:从命令行运行 Nemotron

验证一切正常的最快方法:

mlx_lm.generate 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --prompt "请用10岁小孩能听懂的话解释一下量子纠缠。" 
  --max-tokens 400

首次运行会下载模型(网络连接良好时需几分钟)。之后,模型会缓存到本地,几秒钟即可启动。

第 3 步:从 Python 中使用它

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)

messages = [
    {"role": "user", "content": "写一个检测回文的 Python 函数。"}
]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)

第 4 步:将其作为本地服务器运行

要从其他应用(VS Code 扩展、Raycast、你自己的 Web UI)使用 Nemotron,请启动内置的 OpenAI 兼容服务器:

mlx_lm.server 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --port 8080

现在,任何支持 OpenAI API 的客户端都可以访问 http://localhost:8080/v1/chat/completions。

关于 30B Nano 的说明

30B Nano 使用的是 混合 Mamba2-Transformer 架构,这个架构在 mlx-lm 中仍在完善中。如果你遇到问题,9B 或 12B v2 变体已得到完全支持,并且非常适合大多数笔记本工作流。LM Studio 社区构建版本(lmstudio-community/...)通常是经过最全面测试的 MLX 转换版本。

实际应用案例

这不仅仅是个花哨的演示。以下是人们在 Mac 上本地使用 Nemotron 的实际应用:

1. 私人编码助手

将 Cursor、Continue 或 Zed 指向你的本地 mlx_lm.server。你将获得自动补全和聊天功能,且绝不会将一行代码发送给第三方——这对于客户端工作、受监管行业或仅仅为了安心都非常有用。

2. 针对敏感数据的文档问答

将法律合同、医疗记录或内部 HR 文档输入本地的 RAG 流水线。由于 Nemotron 支持高达 100 万 token 的上下文窗口,你可以直接将整个代码库或案件文件塞进去,而无需将其分割。

3. 离线智能体工作流

Nemotron 是专门为工具使用进行后期训练的。将其连接到 LangGraph 或 PydanticAI 等框架,让它浏览本地文件、运行脚本或查询 SQLite 数据库——所有这些都无需互联网连接。非常适合在飞机上和隔离环境中使用。

4. 批量文本处理

需要总结 5,000 条客户评论、分类支持工单或翻译文档?使用你的本地模型循环处理数据集。成本是电费,而不是每百万 token 0.30 美元——数字虽小,但在实际工作负载中累积起来就多了。

5. 学习与实验

由于权重和训练配方都是开放的,Nemotron 是真正理解模型的最佳选择之一。你可以使用 MLX 的 LoRA 工具在 64 GB Mac 上对其进行微调,检查注意力模式,或调整层的位置。

一些实用技巧

  • 从 4-bit 开始。 对于大多数任务来说,质量损失很小,而内存使用会大幅下降。如果注意到质量问题,再升级到 6-bit 或 8-bit。
  • 关注活动监视器。 留意“内存压力”图表。如果它变黄或变红,请切换到更小的量化版本或更小的模型。
  • 关闭 Chrome。 真的。一个 30B 模型和 80 个浏览器标签页在 32 GB 的机器上是无法和平共存的。
  • 使用推理切换。 Nemotron 3 Nano 有一个内置的推理模式 —— 在解决复杂问题时打开它,在快速聊天时关闭它。系统提示词控制着这个功能。

为什么现在这很重要

三个趋势在 2026 年汇聚在一起,使得这一切成为可能:

  1. 开放权重变得严肃了。 Nemotron 3 Super 在智能体基准测试上真正能与封闭的领先模型竞争,成本仅为后者的约十分之一。
  2. Apple Silicon 持续变得更好。 M4 和 M5 代芯片专门优化了其 GPU 和神经引擎,以应对 Transformer 工作负载。
  3. MLX 成熟了。 它现在在 Apple 硬件上与 llama.cpp 具有竞争力——有时甚至更快,并且拥有更简洁的 Python 易用性。

结果是:你现有的单台笔记本电脑,就能运行两年前需要一台 40,000 美元服务器才能运行的模型。

关键要点

  • Nemotron 是 NVIDIA 的开放权重模型家族,专为高效的智能体 AI 设计,完全公开权重、数据和配方。
  • MLX 是苹果的原生 ML 框架,它利用统一内存在标准 Mac 上运行大型模型。
  • 30B-A3B Nano 变体 是甜点级选择:大型模型的质量,小型模型的速度,适合 4-bit 下 32 GB 的 Mac。
  • 两种安装路径:LM Studio(图形界面,最简单)或 pip install mlx-lm(可编写脚本,更灵活)。
  • 真正的价值 在于隐私敏感的编码、文档分析、离线智能体、批量处理和学习。
  • 硬件甜点区:32–64 GB 的 M 系列 Mac。更多内存可以解锁更大的模型,但即使是基础版 M4 mini 现在也真正有用武之地了。

其背后更大的故事是它所代表的转变。最好的开放模型不再是按百万 token 租用的东西——它们可以在你身边的笔记本电脑上运行。NVIDIA 发布它们,苹果为它们进行优化,开源社区转换它们,这是 AI 民主化进程中一个低调但意义重大的时刻。

去安装一个亲自体验一下吧。

标签: Large Language Models (LLM)MLXNemotron
SendSendShare
Aplicar.AI

Aplicar.AI

相关故事

The Qwen Family: Open-Weight AI from Alibaba

通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?

by Aplicar.AI
17 5 月, 2026
0

2026 年的 AI 圈,热闹得有点儿离谱。OpenAI...

AnythingLLM, Open Source, Private, Local

AnythingLLM实践指南:安装、使用与真实场景搭建

by Aplicar.AI
15 5 月, 2026
0

如果你曾暗自思忖过:"我到底能不能把这份合同直接粘贴到C...

Anthropic Claude Certified Architect

Anthropic 刚刚推出了一项AI认证。它究竟是什么——以及它到底重不重要?

by Aplicar.AI
11 5 月, 2026
0

多年来,简历上的“AI经验”几乎毫无意义。任何一个往Ch...

Open-Weights LLMs 2026

2026年开源权重LLM操作指南:第二部分

by Aplicar.AI
16 5 月, 2026
0

第二部分将解析现代LLM规模的经济学,以及运行当今模型所...

Next Post
AnythingLLM, Open Source, Private, Local

AnythingLLM实践指南:安装、使用与真实场景搭建

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

学习与应用 AI

Aplicar.AI logo

AI 发展迅速。我们帮助你跟上步伐,理解重要的内容,并加以应用——你需要的一切学习和应用 AI 的资源都在这里。

最新文章

  • 通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?
  • Anthropic 神话:强大到被雪藏的 AI 模型
  • AnythingLLM实践指南:安装、使用与真实场景搭建

分类

  • AI 算力
  • AI工具
  • AI新闻
  • AI编程
  • AI视频
  • AI音频
  • Amazon AWS
  • Anthropic
  • Apple
  • DeepSeek
  • Google
  • Microsoft
  • MiniMax
  • Mistral AI
  • Moonshot AI
  • NVIDIA
  • OpenAI
  • 垂直领域AI
  • 开源AI
  • 智能体 AI
  • 本地AI
  • 模型推理
  • 阿里巴巴

标签

AI benchmarks AI网络安全 AI 认证 Apple Silicon AWS Bedrock Claude AI Claude Mythos Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemini AI Gemma 4 Kimi K2 Large Language Models (LLM) Llama 4 Magistral Mistral MLX Nemotron OpenAI GPT Qwen Qwen-Coder Qwen-Image Qwen-Math Qwen-Omni Qwen-VL Tensor Processing Unit (TPU) Trainium Wan 教程 高级
  • English
  • Español
  • Português
  • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

我们使用 Cookie 为您提供最佳的网站体验。 您可以在 中了解我们使用的 Cookie 或将其关闭。

No Result
View All Result
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Privacy Overview
学习与应用AI

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.

Necessary

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.

技术支持来自  GDPR Cookie Compliance