一份在生产环境中运行开源模型的实用指南:哪个模型适合什么任务、需要多大参数、以及该用什么硬件——涵盖CUDA和MLX两种方案。
2026年5月更新——反映2026年4月的发布浪潮(DeepSeek V4、Qwen 3.6、Kimi K2.6)。
为什么要聚焦开源权重
闭源API很简单。你付钱,得到答案。真正有趣的工程——以及大部分误解——都发生在开源权重这边,因为你必须认真考虑参数数量、MoE架构、量化、VRAM,以及你的Mac Studio到底能不能跑得了别人发推说的那个1.6T模型。
本指南只涉及开源权重。下面提到的每个模型都可以下载,在你的硬件上运行,并部署到产品中,无需按token付费。代价是你得了解硬件。这正是本指南的主要内容。
关于时效性:开源权重前沿发展得太快了——本指南中最重要的三个模型(DeepSeek V4、Qwen 3.6、Kimi K2.6)都在2026年4月的30天内发布。具体的版本号会不断变化,但架构模式和对硬件的需求不会变。
第一部分——2026年值得关注的开放模型
在生产环境中,大约有7个模型家族值得了解。不在此列表中的,要么是研究原型,要么是这些模型的较小变体。
DeepSeek——V4系列(2026年4月24日发布)
DeepSeek V4是目前开源权重的顶尖水平。同时发布了两个变体,均采用MIT许可,均支持100万token的上下文。主要架构变化是采用了混合压缩稀疏注意力+强压缩注意力机制,将推理FLOPs降低至V3.2的大约27%,在100万上下文下,KV缓存占用降低至大约10%。
你会实际使用的规格:
- DeepSeek V4-Pro(MoE,激活49B / 总计1.6T)——顶尖水平,在编码和推理方面可与Claude Opus和GPT-5竞争。
- DeepSeek V4-Flash(MoE,激活13B / 总计284B)——快速、高效,大多数团队能负担的多GPU系统即可运行。
- DeepSeek R1(仍在维护,MoE 37B/671B)——专注于推理的前代版本;如果你已在其上部署,或者想要一个更小的顶尖推理选项,它仍有用武之地。
许可证: MIT。非常清晰。
实际应用场景:
- 面向受监管企业的自托管“私有GPT-5”——例如巴西银行、美国国防承包商。当无法向闭源API发送数据但又需要顶尖质量时,在私有数据中心使用8× H200运行V4-Pro是2026年的标准答案。
- 大规模、高并发的编码流水线。 V4-Flash可以快速处理拉取请求、代码审查、重构建议、自动化迁移工具。凭借激活的130亿参数,每个GPU的吞吐量非常出色,算上硬件成本后,每个token的代价微乎其微。
- 大尺度长上下文文档分析——这在半年前还只能通过API完成。V4拥有100万上下文和新的注意力机制,在长距离上确实有效(KV缓存不会爆炸)。适用于法律文件发现、科学文献综述、全代码库分析。
- 通过DeepSeek API实现低成本推理——如果你不想自己部署。V4-Flash每百万输入token仅0.14美元,大约是GPT-5旗舰版的1/18,对于大多数生产工作来说足够好。
- 专有微调的顶尖基础模型。 MIT许可使得商业微调在法律上毫无问题——这对希望在开源基础上构建有竞争力的垂直SaaS产品至关重要。
硬件现实: V4-Pro以全精度运行需要8× H100/H200集群。V4-Flash在FP8精度下,2–4× H100就能流畅运行;如果只是单用户推理,经过重度量化的版本也可以在高端Mac Studio上运行。大多数团队会通过API使用V4-Pro,并在需要控制权时自行部署V4-Flash。
Moonshot——Kimi K2.6(2026年4月发布)
截至2026年年中,Kimi K2.6是开源权重中最强的编码模型——在所有相关的自主长周期编码任务基准测试中名列前茅。它原生支持INT4 QAT(量化感知训练),这意味着它专门设计为在量化后运行且几乎没有质量损失。还包括“智能体集群”能力——可以协调多达300个并行子智能体。
你会实际使用的规格:
- Kimi K2.6(MoE,激活32B / 总计1T)——原生INT4,支持视觉,256K上下文。
- Kimi K2.5(前代版本)——仍被广泛部署,托管成本更低。
许可证: 修改版MIT(几乎所有商业使用免费;月活跃用户超过1亿或月收入超过2000万美元时需要注明出处)。
实际应用场景:
- 生产环境中的智能体编码产品(开源的Cursor/Devin替代品)。2026年,K2.6是其中几个产品的背后模型。对于风投支持的AI编码初创公司来说,可以绕过API实现更好的经济效益。
- 在企业代码库上自托管代码审查和PR分析。原生的INT4量化在这里至关重要——你能以远低于V4-Pro所需的硬件成本,获得顶尖的编码质量。
- 长周期自主任务——Moonshot演示了K2.6在12+小时内执行4,000多次工具调用,以完成一个真实的工程项目。适用于隔夜批处理智能体工作(代码库迁移、大规模重构、文档生成)。
- 多语言代码库(Rust + Go + Python + 前端 + DevOps)。K2.6跨语言的泛化能力优于大多数专注于编码的模型(后者通常偏重Python)。
- 那些在自己硬件上部署顶尖编码能力能成为竞争优势的应用——比如国防软件、金融交易系统、医疗设备固件。代码本身就是知识产权,不能离开公司环境。
硬件现实: 原生INT4使得K2.6在4× H100或2× H200上即可实际部署,这比V4-Pro容易获得得多。重度量化版本可在256GB Mac Studio上运行,供单用户推理。
阿里巴巴——Qwen 3.5 / 3.6系列
功能最全面的开源模型系列。涵盖了从子10亿参数到1T级MoE旗舰的所有尺寸。Qwen 3.5(2026年2月)是主要的代际版本;Qwen 3.6(2026年3-4月)是在其基础上的智能体编码能力增强更新。两条产品线都在积极维护。
你会实际使用的规格(Qwen 3.5 / 3.6混合):
- Qwen 3.5 4B / 9B / 27B(密集模型)——全能强者。其中9B版本在GPQA Diamond上得分81.7,这在300亿参数以下的模型中史无前例。
- Qwen 3.6 27B(密集模型)——27B的更新版,智能体编码能力更强。
- Qwen 3.6 35B-A3B(MoE,激活3B / 总计35B)——2026年整个开源生态中的吞吐量最佳选择。以30亿参数级别的速度,提供350亿参数级别的输出质量。
- Qwen 3.5 122B-A10B(MoE,激活10B / 总计122B)——可在64GB Mac上运行。
- Qwen 3.5-397B-A17B 旗舰版(MoE,激活17B / 总计397B)——顶尖水平。
- Qwen 3.6-Max-Preview——目前仅限API,非开源权重;提及其名是因为开源的3.6衍生模型源自于此。
许可证: 约300亿参数以下的版本为Apache 2.0;较大的旗舰版本为自定义许可(可用于商业)。
实际应用场景:
- 全球产品的多语言客户支持——Qwen处理中文、日语、韩语、印尼语、越南语、印地语、阿拉伯语、葡萄牙语、西班牙语的质量是Llama无法比拟的。任何有大量非英语流量的产品的默认选择。
- 经济高效的高吞吐量聊天后端。 Qwen 3.6 35B-A3B每块GPU可以服务3–5倍于密集30B模型的并发用户,因为每个token只激活30亿参数。2026年生产服务的性价比之王。
- 在Apple Silicon上进行本地智能体编码。 Qwen 3.6 35B-A3B通过MLX可以在64GB MacBook Pro M系列上流畅运行。这个组合(MLX + 35B-A3B MoE)正成为独立开发者的标准配置。
- 亚太地区的本地部署——在这些地区,采购时可能偏好或要求使用中国出品的模型。
- 垂直SaaS的微调基座。 Qwen 3.5的4B–14B尺寸是整个生态系统中性价比最高的微调基座——小到可以在单块GPU上微调,能力又足以发布产品。
- 边缘部署。 Qwen 3.5的0.8B和2B版本可在手机和物联网设备上运行——适用于移动应用中的离线AI功能。
Meta——Llama 4系列
全球支持最广泛的开源模型系列。每个推理框架、微调库和工具集成都优先支持Llama。Llama 4引入了MoE(Scout + Maverick)和原生多模态能力。Llama 3.3 70B仍然是密集型的骨干主力;Llama 4 Behemoth(激活288B / 总计约2T)作为教师模型发布,但尚未以开源权重形式开放。
你会实际使用的规格:
- Llama 3.3 70B(密集模型)——仍然是生产中部署最广的700亿参数开源模型。
- Llama 4 Scout(MoE,激活17B / 总计109B,16个专家)——使用INT4量化后可在单块H100上运行,支持1000万token上下文。
- Llama 4 Maverick(MoE,激活17B / 总计400B,128个专家)——可在单台H100 DGX主机(8× H100)上运行,支持100万上下文,原生多模态。
许可证: Llama 4社区许可。对大多数用户宽松;月活跃用户超过7亿需要特殊许可。截至2026年初,欧盟注册公司无法使用——对欧洲部署而言是一个重要的“陷阱”。
实际应用场景:
- 基于公司维基/文档训练的内部助理。 对Llama 3.3 70B使用LoRA在内部文档上进行微调,通过vLLM在单块H100上提供服务,每位员工就相当于拥有了一个私有的ChatGPT级别助手。这是最常见的Llama部署模式。
- 在文档库上进行多模态RAG(包含图表的PDF、扫描表单、图表)。Llama 4 Scout的原生图像理解能力加上1000万上下文,仅用一个模型就能处理。
- 长文档工作流——全代码库分析、书籍长度文档处理、多轮对话记忆。Scout的1000万上下文在这里确实有用。
- 需要在欧盟以外地区自托管的多租户SaaS。 Llama是最安全的开源选择,因为你所需的所有依赖(vLLM, TGI, Ollama, llama.cpp, MLX)都在第一时间支持它。
- 需要最大库支持的微调团队。 Llama是整个生态系统中文档最完善、支持最广泛的微调基座。
Mistral
欧洲的旗舰AI实验室。务实、许可清晰、专注于编码。没有DeepSeek或Kimi那样的炒作,但更可靠。鉴于Llama 4在欧盟不可用,它现在尤为重要。
你会实际使用的规格:
- Mistral Small 3(约240亿参数密集模型)——高效,指令遵循能力强。
- Mistral Medium / Large 3——顶尖水平的密集模型和MoE旗舰。
- Codestral / Devstral——代码专用;Devstral为智能体式多文件编码而调优。
- Magistral(约240亿参数推理模型)——开源推理模型。
许可证: 大部分版本为Apache 2.0。
实际应用场景:
- 面向欧洲中型市场的符合GDPR的本地聊天机器人。 随着Llama 4在欧盟不可用,Mistral已成为欧洲企业的默认开源选择。
- 可编辑多个文件的智能体编码工具。 Devstral正是为此而生——它是几个不想使用中国模型的、开源的Cursor替代品的背后模型。
- 产品功能的函数调用后端。 Mistral模型无需特殊提示即可可靠地输出结构化JSON。常见于“自然语言 → 结构化查询”功能。
- 欧盟语言文档处理(法语、葡萄牙语、意大利语、西班牙语),Mistral在这些语言上相比Qwen等中国模型有可衡量的优势。
- 在单块GPU上运行的廉价本地编码助手。 Devstral 24B在24GB GPU上运行顺畅,可以处理实际的重构任务。
Google——Gemma系列
Google对标Llama和Qwen的开源模型。采用Apache 2.0许可,尺寸从约10亿到约300亿参数不等,最新一代支持视觉和工具调用。
你会实际使用的规格:
- Gemma 4 9B——强大的小模型,具备视觉和工具调用能力。
- Gemma 4 27B——中等尺寸密集模型;指令遵循能力强。
许可证: Apache 2.0。
实际应用场景:
- 在普通硬件上运行、支持工具调用的本地智能体。 Gemma 4 9B在16GB GPU上即可可靠地进行函数调用——非常适合桌面助手、浏览器扩展和轻量级自动化。
- 无需支付API费用的视觉+文本提取流水线——读取截图、从图表中提取数据、处理扫描表单。
- 移动应用、信息亭、工业设备的边缘或设备端部署。 Gemma是为此优化最好的开源模型系列。
- 法律上要求使用Apache 2.0许可的应用。 一些采购流程和开源软件发行版特别要求使用OSI批准的许可证。Gemma和Mistral是最清晰的选择。
- 在Google Cloud / Vertex AI上的工作负载,Gemma在那里有一流的基础设施支持。
NVIDIA——Nemotron系列
NVIDIA的开源发布,主要展示其训练和推理栈的能力。如果你已经深度投入CUDA/TensorRT/NeMo,值得考虑。
你会实际使用的规格:
- Nemotron Nano(约4B–9B)——高效的推理模型。
- Nemotron Cascade / Ultra——更大的、为推理调优的MoE变体。
许可证: 因版本而异;大部分为宽松的开源权重许可。
实际应用场景:
- 在H100/H200/B200上榨取每个token/秒的最高吞吐量。 Nemotron与TensorRT-LLM协同设计,在相同的NVIDIA硬件上,其吞吐量明显高于等效的Llama/Qwen模型。
- 在NVIDIA NIM微服务上的推理工作负载——如果你的平台团队已标准化使用NIM,那么Nemotron是阻力最小的路径。
- 已在使用NVIDIA NeMo的微调团队。 停留在单一工具链中,在运维上价值巨大。
第二部分——模型规模:密集模型 vs MoE,以及各自的实际成本
这一部分是大多数人会搞错的地方。
两个关键的参数数字
每个现代大语言模型都有两个相关的尺寸:
- 总参数量——模型在磁盘和内存中的大小。决定了所需的硬件容量。
- 每token激活参数——生成每个token实际参与计算的参数量。决定了吞吐量(token/秒)和能耗。
对于密集模型,这两个数字是相同的。Llama 3.3 70B生成每个token都会使用全部的700亿参数。
对于MoE(混合专家),它们则截然不同。DeepSeek V4-Pro总共有1.6T参数,但每个token只激活49B。模型在内存中很庞大,但生成每个token的计算量只相当于一个490亿参数的模型。这正是MoE的全部意义——用不成比例的计算量换取巨大的模型容量。
实际影响
| 密集模型 | MoE | |
|---|---|---|
| 所需内存 | = 总参数 × 每参数字节数 | = 总参数 × 每参数字节数(相同——所有专家都必须加载) |
| 每GPU吞吐量 | 与总参数量成正比 | 与激活参数量成正比 |
| 擅长 | 行为可预测、易微调、单GPU部署 | 高并发服务、无需匹配顶尖计算量即可获得顶尖能力 |
| 不擅长 | 扩展容量超过单GPU能容纳的上限 | 小规模单用户部署(你需要支付全部内存成本,却没有足够的用户来分摊它) |
经验法则: 如果你只有少数几个用户,密集模型在每GB显存上的质量更好。如果你要服务大量并发用户,MoE的优势是决定性的,因为你只需支付一次内存成本,就能以激活参数的速度服务大量请求。
内存计算
加载模型所需的大致内存:
内存 ≈ 参数数量 × 每参数字节数 + KV缓存 + 开销
每参数字节数:
| 精度 | 每参数字节数 | 质量 | 使用时机 |
|---|---|---|---|
| FP16 / BF16 | 2 | 参考标准 | 数据中心GPU上的生产服务 |
| FP8 | 1 | 接近参考标准 | 现代H100/H200上的生产服务 |
| INT8 | 1 | 微小损失 | FP8不可用时的生产服务 |
| INT4 (Q4_K_M, AWQ, GPTQ) | 0.5 | 小但可接受 | 本地推理的默认选择 |
| INT3 / INT2 | 0.25–0.4 | 明显退化 | 在消费级硬件上运行旗舰模型的最后手段 |
另外需要为KV缓存(随上下文长度增长)和运行时增加10–30%的开销。
特例——原生INT4模型,如Kimi K2.6,是经过量化感知训练的,这意味着INT4推理是预期的部署方式,而不是退而求其次的降级方案。与全精度相比,质量损失几乎为零。
实例计算(当前模型)
| 模型 | 总参数 | 激活参数 | FP16内存 | INT8内存 | INT4内存 |
|---|---|---|---|---|---|
| Gemma 4 9B | 9B (密集) | 9B | ~18 GB | ~9 GB | ~5 GB |
| Mistral Small 3 24B | 24B (密集) | 24B | ~48 GB | ~24 GB | ~12 GB |
| Qwen 3.5 27B | 27B (密集) | 27B | ~54 GB | ~27 GB | ~14 GB |
| Qwen 3.6 35B-A3B (MoE) | 35B | 3B | ~70 GB | ~35 GB | ~18 GB |
| Llama 3.3 70B | 70B (密集) | 70B | ~140 GB | ~70 GB | ~35 GB |
| Llama 4 Scout (MoE) | 109B | 17B | ~218 GB | ~109 GB | ~55 GB |
| Qwen 3.5 122B-A10B (MoE) | 122B | 10B | ~244 GB | ~122 GB | ~61 GB |
| DeepSeek V4-Flash (MoE) | 284B | 13B | ~568 GB | ~284 GB | ~142 GB |
| Llama 4 Maverick (MoE) | 400B | 17B | ~800 GB | ~400 GB | ~200 GB |
| Qwen 3.5-397B-A17B (MoE) | 397B | 17B | ~794 GB | ~397 GB | ~199 GB |
| Kimi K2.6 (MoE, 原生INT4) | 1T | 32B | — | — | ~500 GB (原生) |
| DeepSeek V4-Pro (MoE) | 1.6T | 49B | ~3.2 TB | ~1.6 TB | ~800 GB |
以上仅为模型权重。在此基础上,为KV缓存和开销增加10–30%。
第三部分——硬件:CUDA和MLX的真实数据
2026年有两条可行路径:NVIDIA CUDA(生产标准)和Apple MLX/Metal(单用户大型模型推理的性价比之选)。AMD正在改进,但尚未成为大语言模型服务的主流生产选择。



