• Latest
Running NVIDIA's Nemotron Open Models on Your Mac with MLX

在 Mac 上使用 MLX 运行 NVIDIA Nemotron 开放模型

14 6 月, 2026
Anthropic Forced to Shut Down Fable 5 and Mythos 5 After U.S. Export Order

美国出口管制令迫使Anthropic关停Fable 5与Mythos 5

14 6 月, 2026
Agentic Coding. How AI Writes, Tests, Debugs, and Ships Software

什么是智能体编程?理解AI如何编写、测试、调试与交付软件

14 6 月, 2026
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
SAVED POSTS
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
aplicar.AI
No Result
View All Result
首页 智能体 AI
Running NVIDIA's Nemotron Open Models on Your Mac with MLX

Running NVIDIA's Nemotron Open Models on Your Mac with MLX

在 Mac 上使用 MLX 运行 NVIDIA Nemotron 开放模型

Aplicar.AI 编辑团队 by Aplicar.AI 编辑团队
14 6 月, 2026
in 智能体 AI, Apple, NVIDIA, 开源AI, 本地AI, 模型推理
0
Share via emailShare via WhatsappShare to Facebook
  • EnglishEnglish
  • EspañolEspañol
  • PortuguêsPortuguês
  • 中文 (中国)中文 (中国)

在 Mac 上使用 MLX 运行 NVIDIA Nemotron 开放模型,Apple Silicon 和 NVIDIA AI 同时出现曾显得矛盾。但到了 2026 年,这已成为一种工作流程——而且效果出奇地好。NVIDIA 的开放权重 Nemotron 模型现在可以在你的 M1、M2、M3、M4 或 M5 Mac 上,借助 Apple 的 MLX 框架原生运行,无需 GPU、没有云账单,且数据不会离开你的笔记本。

本指南将带你了解 Nemotron 究竟是什么、为何 MLX 能使它在 Mac 上运行得如此之快、如何在几分钟内完成安装,以及你可以用它做的实际工作。

简单来说,Nemotron 是什么?

你可以将 Nemotron 视为 NVIDIA 对 Llama、Qwen 和 Mistral 的回应:它是一个 开放权重的大语言模型 系列,任何人都可以下载、检查、微调并用于商业产品。

Nemotron 的亮点:

  • 真正的开放。 NVIDIA 公开发布了权重、训练数据集 以及 构建它们的配方。大多数“开放”模型仅发布权重。
  • 为智能体而生。 这些模型经过调优,能够执行多步骤任务——调用工具、浏览、运行代码——而不仅仅是聊天。
  • 设计高效。 它们采用混合专家(MoE)架构,有点像医院:你不会为每个病人召集所有医生,只会呼叫相关的专家。

当前产品阵容一览:

模型总参数激活参数最适合
Nemotron 3 Nano 9B / 12B v29B / 12B密集笔记本、快速聊天、端侧智能体
Nemotron 3 Nano 30B-A3B30B3.5BApple Silicon 的最佳选择
Nemotron 3 Nano Omni30B3B多模态(文本 + 图像 + 音频 + 视频)
Nemotron 3 Super120B12B工作站级、长上下文智能体

对于 Mac,30B-A3B Nano 是大多数人会选择的模型。尽管标着“30B”,但每个 token 只有 35 亿个参数处于激活状态,因此它生成文本的速度接近 3B 模型,推理能力却堪比更大的模型。

为何 MLX 改变了 Mac 的游戏规则

MLX 是 Apple 专为 M 系列芯片构建的开源机器学习框架。关键诀窍:统一内存。在 Mac 上,CPU 和 GPU 共享同一块内存,因此 36 GB 的 MacBook Pro 可以加载 30B 模型,而通常这需要配备 24 GB 以上显存的专用 GPU。

这意味着:

  • 一台 基础款 M4 Mac mini 现已成为可行的 LLM 开发机器。
  • 一台 32–64 GB 的 MacBook Pro 可以运行完整的 Nemotron 3 Nano 30B,采用 4 位量化,速度约每秒 80–100 个 token。
  • 据基准测试报告,M4 Pro 在 MLX 上运行 Nemotron 的性能超过了 M2 Max——最近的 Apple 芯片对此类模型进行了专门优化。

与之相比,两年前在 Mac 上本地运行 30B 模型,要么意味着痛苦的 llama.cpp 编译过程,要么直接放弃。

你需要准备什么

开始前,请检查你是否有:

  • 一台配备 M1 或更新 Apple Silicon 芯片的 Mac(M2、M3、M4 或 M5 均可)
  • macOS 14 (Sonoma) 或更高版本
  • Python 3.10+ 已安装(通过 python.org 或 brew install python)
  • 可用磁盘空间:4 位 Nano 约需 18 GB,8 位约需 32 GB,Super 需 70 GB 以上
  • 内存建议:较小变体 16 GB 即可,30B Nano 建议 32 GB 以上,从容运行建议 64 GB 以上,若想尝试 Super 需 128 GB 以上

方法一:简单途径 —— LM Studio

如果你只想在清爽的界面中与 Nemotron 聊天,而不用碰终端:

  1. 下载 LM Studio for Mac(免费)。
  2. 打开应用,搜索 Nemotron 3 Nano。
  3. 选择一个 MLX 变体——NVIDIA-Nemotron-3-Nano-30B-A3B-MLX-4bit 是个很好的起点。
  4. 点击 Download,然后 Load Model,即可开始聊天。

LM Studio 还在 http://localhost:1234/v1 上提供了与 OpenAI 兼容的本地 API,这意味着任何与 OpenAI 通信的工具(Cursor、Continue、自定义脚本)都可以转而指向你的 Mac。

方法二:开发者途径 —— mlx-lm

若需要更多掌控力、脚本化以及集成到自己的应用中,请安装 MLX 团队的官方 Python 包 mlx-lm。

第 1 步:设置干净的环境

# 创建虚拟环境,以免污染系统 Python
python3 -m venv ~/nemotron-env
source ~/nemotron-env/bin/activate

# 安装 mlx-lm
pip install --upgrade mlx-lm

第 2 步:从命令行运行 Nemotron

验证一切是否正常的最快方式:

mlx_lm.generate 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --prompt "Explain quantum entanglement to a 10-year-old." 
  --max-tokens 400

首次运行会下载模型(网速良好时需几分钟)。之后,它会被本地缓存,几秒内即可启动。

第 3 步:从 Python 中使用

from mlx_lm import load, generate

model, tokenizer = load(
    "mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit"
)

messages = [
    {"role": "user", "content": "Write a Python function that detects palindromes."}
]
prompt = tokenizer.apply_chat_template(
    messages, add_generation_prompt=True, tokenize=False
)

response = generate(model, tokenizer, prompt=prompt, verbose=True, max_tokens=500)
print(response)

第 4 步:作为本地服务器运行

要从其他应用(VS Code 插件、Raycast、自己的 Web 界面)使用 Nemotron,启动内置的 OpenAI 兼容服务器:

mlx_lm.server 
  --model mlx-community/NVIDIA-Nemotron-3-Nano-30B-A3B-4bit 
  --port 8080

现在,任何使用 OpenAI API 的客户端都可以访问 http://localhost:8080/v1/chat/completions。

关于 30B Nano 的说明

30B Nano 采用了 Mamba2-Transformer 混合 架构,在 mlx-lm 中仍在完善中。若你遇到问题,9B 或 12B v2 变体完全支持,且非常适合大多数笔记本工作流。LM Studio 社区构建的版本(lmstudio-community/...)通常是经过最彻底测试的 MLX 转换。

实际使用案例

这并非只是花拳绣腿。以下是人们用 Mac 上的本地 Nemotron 实际所做之事:

1. 私密编程助手

将 Cursor、Continue 或 Zed 指向你的本地 mlx_lm.server。你将获得自动补全和聊天功能,且一行代码都不会发送给第三方——适用于客户工作、受监管行业,或单纯图个安心。

2. 针对敏感数据的文档问答

将法律合同、医疗记录或内部人力资源文档输入本地 RAG 流水线。由于 Nemotron 支持高达 100 万 token 的上下文窗口,你可以直接塞入整个代码库或案卷,而无需拆分。

3. 离线智能体工作流

Nemotron 经过专门的后训练,擅长使用工具。将其与 LangGraph 或 PydanticAI 等框架结合,让它浏览本地文件、运行脚本或查询 SQLite 数据库——全都在无网络连接的情况下完成。非常适合飞机上和气隙环境。

4. 批量文本处理

需要总结 5000 条客户评论、分类工单或翻译文档?用你的本地模型循环处理数据集。成本仅为电费,而非每百万 token 0.30 美元——数目虽小,但实际工作负载下会积少成多。

5. 学习与实验

由于权重和训练配方开放,Nemotron 是真正能够 理解 的最佳模型之一。你可以在 64 GB 的 Mac 上使用 MLX 的 LoRA 工具对其进行微调、检查注意力模式或交换层。

一些实用建议

  • 从 4 位开始。 对大多数任务而言质量损失极小,且内存占用大幅下降。若发现质量问题,再升至 6 位或 8 位。
  • 留意活动监视器。 观察“内存压力”图表。若变成黄色或红色,请降至更低的量化或更小的模型。
  • 关闭 Chrome。 说真的。30B 模型和 80 个浏览器标签在 32 GB 的机器上无法和平共处。
  • 使用推理开关。 Nemotron 3 Nano 内置推理模式——遇到复杂问题时开启,快速聊天时关闭。系统提示词可以控制此功能。

为何此事当下如此重要

三大趋势在 2026 年汇聚,使之成为可能:

  1. 开放权重走向成熟。 Nemotron 3 Super 在智能体基准测试中真正与闭源前沿模型展开竞争,且成本大约低 10 倍。
  2. Apple Silicon 不断进步。 M4 和 M5 代产品专门针对 Transformer 工作负载优化了 GPU 和神经引擎。
  3. MLX 趋于成熟。 如今在 Apple 硬件上,它已可与 llama.cpp 一较高下——有时甚至更快,且 Python 生态更简洁。

结果是:你现有的笔记本电脑即可运行两年前需要 4 万美元服务器的模型。

关键要点

  • Nemotron 是 NVIDIA 的开放权重模型家族,专为高效的智能体 AI 设计,权重、数据和配方完全公开。
  • MLX 是 Apple 的原生机器学习框架,利用统一内存让普通 Mac 也能运行大型模型。
  • 30B-A3B Nano 变体 是最佳之选:大模型的质量,小模型的速度,4 位量化后可运行在 32 GB 的 Mac 上。
  • 两种安装方式:LM Studio(图形界面,最简单)或 pip install mlx-lm(可脚本化,灵活)。
  • 实际价值 在于隐私敏感型编程、文档分析、离线智能体、批处理和学习。
  • 硬件最佳配置:32–64 GB M 系列 Mac。更多内存可解锁更大模型,但即便是基础款 M4 mini 也真正堪用了。

更宏大的叙事在于其所代表的转变。最好的开放模型不再是你按百万 token 租用的东西——它们就在你身旁的笔记本上运行。NVIDIA 将其发布,Apple 为其优化,开源社区进行转换,这是 AI 民主化进程中一个静默却意义重大的时刻。

去安装一个,亲自体验吧。

标签: MLXNemotron大语言模型(LLM)
SendSendShare
Aplicar.AI 编辑团队

Aplicar.AI 编辑团队

我们是 Aplicar.AI 编辑团队,专为想要超越理论、真正用好人工智能的读者而设。我们注重实操:手把手的分步教程、实用指南、工具对比,以及可以立即应用到工作、业务或学习中的真实案例。 AI 发展日新月异,而我们的使命是把它讲清楚、讲实用:解释 AI 的实际运作原理,并告诉你如何充分发挥它的价值——无论你是刚刚入门,还是正在搭建高级的自动化工作流。 从通俗易懂的入门讲解到深入的分析,从新手教程到生产级的工作流,我们的目标始终如一:让 AI 知识触手可及,帮助每一个人和企业把它真正用起来。 我们借助人工智能创作内容,但始终坚持人工审核与编辑把关——因为清晰、准确和透明是我们不可妥协的原则。

相关故事

Agentic Coding. How AI Writes, Tests, Debugs, and Ships Software

什么是智能体编程?理解AI如何编写、测试、调试与交付软件

by Aplicar.AI 编辑团队
14 6 月, 2026
0

多年来,AI编程工具擅长一件事:帮你补全句子。你键入一个...

How to Cut AI Coding Costs with Claude, Qwen, and DeepSeek

停止支付高昂费用:如何利用Claude、Qwen和DeepSeek降低AI编码成本

by Aplicar.AI 编辑团队
8 6 月, 2026
0

如果你的团队将所有编程任务都交给一个顶级AI模型,很可能...

The Qwen Family: Open-Weight AI from Alibaba

通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?

by Aplicar.AI 编辑团队
8 6 月, 2026
0

2026 年的 AI 圈,热闹得有点儿离谱。OpenAI...

AnythingLLM, Open Source, Private, Local

AnythingLLM实践指南:安装、使用与真实场景搭建

by Aplicar.AI 编辑团队
8 6 月, 2026
0

如果你曾暗自思忖过:"我到底能不能把这份合同直接粘贴到C...

Next Post
AnythingLLM, Open Source, Private, Local

AnythingLLM实践指南:安装、使用与真实场景搭建

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

学习与应用 AI

Aplicar.AI logo

AI 发展迅速。我们帮助你跟上步伐,理解重要的内容,并加以应用——你需要的一切学习和应用 AI 的资源都在这里。

最新文章

  • 美国出口管制令迫使Anthropic关停Fable 5与Mythos 5
  • 什么是智能体编程?理解AI如何编写、测试、调试与交付软件
  • 停止支付高昂费用:如何利用Claude、Qwen和DeepSeek降低AI编码成本

分类

  • AI 算力
  • AI工具
  • AI新闻
  • AI编程
  • AI视频
  • AI音频
  • Amazon AWS
  • Anthropic
  • Apple
  • DeepSeek
  • Google
  • Microsoft
  • MiniMax
  • Mistral AI
  • Moonshot AI
  • NVIDIA
  • OpenAI
  • 垂直领域AI
  • 开源AI
  • 智能体 AI
  • 本地AI
  • 模型推理
  • 阿里巴巴

标签

AI benchmarks AI 智能体 AI网络安全 AI 认证 Apple Silicon AWS Bedrock Claude AI Claude Code Claude Mythos Codestral / Devstral CUDA Cursor DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemini AI Gemma 4 GitHub Copilot Kimi K2 Llama 4 Magistral MCP Mistral MLX Nemotron OpenAI Codex OpenAI GPT Qwen Qwen-Coder Qwen-Image Qwen-Math Qwen-Omni Qwen-VL Tensor Processing Unit (TPU) Trainium Wan 大语言模型(LLM) 对比评测 教程 高级
  • 关于我们
  • 联系我们
  • 我们如何使用人工智能
  • English
  • Español
  • Português
  • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

我们使用 Cookie 为您提供最佳的网站体验。 您可以在 中了解我们使用的 Cookie 或将其关闭。

No Result
View All Result
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Privacy Overview
学习与应用AI

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.

Necessary

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.

技术支持来自  GDPR Cookie Compliance