2026年开源权重大模型实用指南

一份在生产环境中运行开源模型的实用指南：哪个模型适合什么任务、需要多大参数、以及该用什么硬件——涵盖CUDA和MLX两种方案。

2026年5月更新——反映2026年4月的发布浪潮（DeepSeek V4、Qwen 3.6、Kimi K2.6）。

为什么要聚焦开源权重

闭源API很简单。你付钱，得到答案。真正有趣的工程——以及大部分误解——都发生在开源权重这边，因为你必须认真考虑参数数量、MoE架构、量化、VRAM，以及你的Mac Studio到底能不能跑得了别人发推说的那个1.6T模型。

本指南只涉及开源权重。下面提到的每个模型都可以下载，在你的硬件上运行，并部署到产品中，无需按token付费。代价是你得了解硬件。这正是本指南的主要内容。

关于时效性：开源权重前沿发展得太快了——本指南中最重要的三个模型（DeepSeek V4、Qwen 3.6、Kimi K2.6）都在2026年4月的30天内发布。具体的版本号会不断变化，但架构模式和对硬件的需求不会变。

第一部分——2026年值得关注的开放模型

在生产环境中，大约有7个模型家族值得了解。不在此列表中的，要么是研究原型，要么是这些模型的较小变体。

DeepSeek——V4系列（2026年4月24日发布）

DeepSeek V4是目前开源权重的顶尖水平。同时发布了两个变体，均采用MIT许可，均支持100万token的上下文。主要架构变化是采用了混合压缩稀疏注意力+强压缩注意力机制，将推理FLOPs降低至V3.2的大约27%，在100万上下文下，KV缓存占用降低至大约10%。

你会实际使用的规格：

DeepSeek V4-Pro（MoE，激活49B / 总计1.6T）——顶尖水平，在编码和推理方面可与Claude Opus和GPT-5竞争。
DeepSeek V4-Flash（MoE，激活13B / 总计284B）——快速、高效，大多数团队能负担的多GPU系统即可运行。
DeepSeek R1（仍在维护，MoE 37B/671B）——专注于推理的前代版本；如果你已在其上部署，或者想要一个更小的顶尖推理选项，它仍有用武之地。

许可证： MIT。非常清晰。

实际应用场景：

面向受监管企业的自托管“私有GPT-5”——例如巴西银行、美国国防承包商。当无法向闭源API发送数据但又需要顶尖质量时，在私有数据中心使用8× H200运行V4-Pro是2026年的标准答案。
大规模、高并发的编码流水线。 V4-Flash可以快速处理拉取请求、代码审查、重构建议、自动化迁移工具。凭借激活的130亿参数，每个GPU的吞吐量非常出色，算上硬件成本后，每个token的代价微乎其微。
大尺度长上下文文档分析——这在半年前还只能通过API完成。V4拥有100万上下文和新的注意力机制，在长距离上确实有效（KV缓存不会爆炸）。适用于法律文件发现、科学文献综述、全代码库分析。
通过DeepSeek API实现低成本推理——如果你不想自己部署。V4-Flash每百万输入token仅0.14美元，大约是GPT-5旗舰版的1/18，对于大多数生产工作来说足够好。
专有微调的顶尖基础模型。 MIT许可使得商业微调在法律上毫无问题——这对希望在开源基础上构建有竞争力的垂直SaaS产品至关重要。

硬件现实： V4-Pro以全精度运行需要8× H100/H200集群。V4-Flash在FP8精度下，2–4× H100就能流畅运行；如果只是单用户推理，经过重度量化的版本也可以在高端Mac Studio上运行。大多数团队会通过API使用V4-Pro，并在需要控制权时自行部署V4-Flash。

Moonshot——Kimi K2.6（2026年4月发布）

截至2026年年中，Kimi K2.6是开源权重中最强的编码模型——在所有相关的自主长周期编码任务基准测试中名列前茅。它原生支持INT4 QAT（量化感知训练），这意味着它专门设计为在量化后运行且几乎没有质量损失。还包括“智能体集群”能力——可以协调多达300个并行子智能体。

你会实际使用的规格：

Kimi K2.6（MoE，激活32B / 总计1T）——原生INT4，支持视觉，256K上下文。
Kimi K2.5（前代版本）——仍被广泛部署，托管成本更低。

许可证： 修改版MIT（几乎所有商业使用免费；月活跃用户超过1亿或月收入超过2000万美元时需要注明出处）。

实际应用场景：

生产环境中的智能体编码产品（开源的Cursor/Devin替代品）。2026年，K2.6是其中几个产品的背后模型。对于风投支持的AI编码初创公司来说，可以绕过API实现更好的经济效益。
在企业代码库上自托管代码审查和PR分析。原生的INT4量化在这里至关重要——你能以远低于V4-Pro所需的硬件成本，获得顶尖的编码质量。
长周期自主任务——Moonshot演示了K2.6在12+小时内执行4,000多次工具调用，以完成一个真实的工程项目。适用于隔夜批处理智能体工作（代码库迁移、大规模重构、文档生成）。
多语言代码库（Rust + Go + Python + 前端 + DevOps）。K2.6跨语言的泛化能力优于大多数专注于编码的模型（后者通常偏重Python）。
那些在自己硬件上部署顶尖编码能力能成为竞争优势的应用——比如国防软件、金融交易系统、医疗设备固件。代码本身就是知识产权，不能离开公司环境。

硬件现实： 原生INT4使得K2.6在4× H100或2× H200上即可实际部署，这比V4-Pro容易获得得多。重度量化版本可在256GB Mac Studio上运行，供单用户推理。

阿里巴巴——Qwen 3.5 / 3.6系列

功能最全面的开源模型系列。涵盖了从子10亿参数到1T级MoE旗舰的所有尺寸。Qwen 3.5（2026年2月）是主要的代际版本；Qwen 3.6（2026年3-4月）是在其基础上的智能体编码能力增强更新。两条产品线都在积极维护。

你会实际使用的规格（Qwen 3.5 / 3.6混合）：

Qwen 3.5 4B / 9B / 27B（密集模型）——全能强者。其中9B版本在GPQA Diamond上得分81.7，这在300亿参数以下的模型中史无前例。
Qwen 3.6 27B（密集模型）——27B的更新版，智能体编码能力更强。
Qwen 3.6 35B-A3B（MoE，激活3B / 总计35B）——2026年整个开源生态中的吞吐量最佳选择。以30亿参数级别的速度，提供350亿参数级别的输出质量。
Qwen 3.5 122B-A10B（MoE，激活10B / 总计122B）——可在64GB Mac上运行。
Qwen 3.5-397B-A17B 旗舰版（MoE，激活17B / 总计397B）——顶尖水平。
Qwen 3.6-Max-Preview——目前仅限API，非开源权重；提及其名是因为开源的3.6衍生模型源自于此。

许可证： 约300亿参数以下的版本为Apache 2.0；较大的旗舰版本为自定义许可（可用于商业）。

实际应用场景：

全球产品的多语言客户支持——Qwen处理中文、日语、韩语、印尼语、越南语、印地语、阿拉伯语、葡萄牙语、西班牙语的质量是Llama无法比拟的。任何有大量非英语流量的产品的默认选择。
经济高效的高吞吐量聊天后端。 Qwen 3.6 35B-A3B每块GPU可以服务3–5倍于密集30B模型的并发用户，因为每个token只激活30亿参数。2026年生产服务的性价比之王。
在Apple Silicon上进行本地智能体编码。 Qwen 3.6 35B-A3B通过MLX可以在64GB MacBook Pro M系列上流畅运行。这个组合（MLX + 35B-A3B MoE）正成为独立开发者的标准配置。
亚太地区的本地部署——在这些地区，采购时可能偏好或要求使用中国出品的模型。
垂直SaaS的微调基座。 Qwen 3.5的4B–14B尺寸是整个生态系统中性价比最高的微调基座——小到可以在单块GPU上微调，能力又足以发布产品。
边缘部署。 Qwen 3.5的0.8B和2B版本可在手机和物联网设备上运行——适用于移动应用中的离线AI功能。

Meta——Llama 4系列

全球支持最广泛的开源模型系列。每个推理框架、微调库和工具集成都优先支持Llama。Llama 4引入了MoE（Scout + Maverick）和原生多模态能力。Llama 3.3 70B仍然是密集型的骨干主力；Llama 4 Behemoth（激活288B / 总计约2T）作为教师模型发布，但尚未以开源权重形式开放。

你会实际使用的规格：

Llama 3.3 70B（密集模型）——仍然是生产中部署最广的700亿参数开源模型。
Llama 4 Scout（MoE，激活17B / 总计109B，16个专家）——使用INT4量化后可在单块H100上运行，支持1000万token上下文。
Llama 4 Maverick（MoE，激活17B / 总计400B，128个专家）——可在单台H100 DGX主机（8× H100）上运行，支持100万上下文，原生多模态。

许可证： Llama 4社区许可。对大多数用户宽松；月活跃用户超过7亿需要特殊许可。截至2026年初，欧盟注册公司无法使用——对欧洲部署而言是一个重要的“陷阱”。

实际应用场景：

基于公司维基/文档训练的内部助理。 对Llama 3.3 70B使用LoRA在内部文档上进行微调，通过vLLM在单块H100上提供服务，每位员工就相当于拥有了一个私有的ChatGPT级别助手。这是最常见的Llama部署模式。
在文档库上进行多模态RAG（包含图表的PDF、扫描表单、图表）。Llama 4 Scout的原生图像理解能力加上1000万上下文，仅用一个模型就能处理。
长文档工作流——全代码库分析、书籍长度文档处理、多轮对话记忆。Scout的1000万上下文在这里确实有用。
需要在欧盟以外地区自托管的多租户SaaS。 Llama是最安全的开源选择，因为你所需的所有依赖（vLLM, TGI, Ollama, llama.cpp, MLX）都在第一时间支持它。
需要最大库支持的微调团队。 Llama是整个生态系统中文档最完善、支持最广泛的微调基座。

Mistral

欧洲的旗舰AI实验室。务实、许可清晰、专注于编码。没有DeepSeek或Kimi那样的炒作，但更可靠。鉴于Llama 4在欧盟不可用，它现在尤为重要。

你会实际使用的规格：

Mistral Small 3（约240亿参数密集模型）——高效，指令遵循能力强。
Mistral Medium / Large 3——顶尖水平的密集模型和MoE旗舰。
Codestral / Devstral——代码专用；Devstral为智能体式多文件编码而调优。
Magistral（约240亿参数推理模型）——开源推理模型。

许可证： 大部分版本为Apache 2.0。

实际应用场景：

面向欧洲中型市场的符合GDPR的本地聊天机器人。 随着Llama 4在欧盟不可用，Mistral已成为欧洲企业的默认开源选择。
可编辑多个文件的智能体编码工具。 Devstral正是为此而生——它是几个不想使用中国模型的、开源的Cursor替代品的背后模型。
产品功能的函数调用后端。 Mistral模型无需特殊提示即可可靠地输出结构化JSON。常见于“自然语言 → 结构化查询”功能。
欧盟语言文档处理（法语、葡萄牙语、意大利语、西班牙语），Mistral在这些语言上相比Qwen等中国模型有可衡量的优势。
在单块GPU上运行的廉价本地编码助手。 Devstral 24B在24GB GPU上运行顺畅，可以处理实际的重构任务。

Google——Gemma系列

Google对标Llama和Qwen的开源模型。采用Apache 2.0许可，尺寸从约10亿到约300亿参数不等，最新一代支持视觉和工具调用。

你会实际使用的规格：

Gemma 4 9B——强大的小模型，具备视觉和工具调用能力。
Gemma 4 27B——中等尺寸密集模型；指令遵循能力强。

许可证： Apache 2.0。

实际应用场景：

在普通硬件上运行、支持工具调用的本地智能体。 Gemma 4 9B在16GB GPU上即可可靠地进行函数调用——非常适合桌面助手、浏览器扩展和轻量级自动化。
无需支付API费用的视觉+文本提取流水线——读取截图、从图表中提取数据、处理扫描表单。
移动应用、信息亭、工业设备的边缘或设备端部署。 Gemma是为此优化最好的开源模型系列。
法律上要求使用Apache 2.0许可的应用。 一些采购流程和开源软件发行版特别要求使用OSI批准的许可证。Gemma和Mistral是最清晰的选择。
在Google Cloud / Vertex AI上的工作负载，Gemma在那里有一流的基础设施支持。

NVIDIA——Nemotron系列

NVIDIA的开源发布，主要展示其训练和推理栈的能力。如果你已经深度投入CUDA/TensorRT/NeMo，值得考虑。

你会实际使用的规格：

Nemotron Nano（约4B–9B）——高效的推理模型。
Nemotron Cascade / Ultra——更大的、为推理调优的MoE变体。

许可证： 因版本而异；大部分为宽松的开源权重许可。

实际应用场景：

在H100/H200/B200上榨取每个token/秒的最高吞吐量。 Nemotron与TensorRT-LLM协同设计，在相同的NVIDIA硬件上，其吞吐量明显高于等效的Llama/Qwen模型。
在NVIDIA NIM微服务上的推理工作负载——如果你的平台团队已标准化使用NIM，那么Nemotron是阻力最小的路径。
已在使用NVIDIA NeMo的微调团队。 停留在单一工具链中，在运维上价值巨大。

第二部分——模型规模：密集模型 vs MoE，以及各自的实际成本

这一部分是大多数人会搞错的地方。

两个关键的参数数字

每个现代大语言模型都有两个相关的尺寸：

总参数量——模型在磁盘和内存中的大小。决定了所需的硬件容量。
每token激活参数——生成每个token实际参与计算的参数量。决定了吞吐量（token/秒）和能耗。

对于密集模型，这两个数字是相同的。Llama 3.3 70B生成每个token都会使用全部的700亿参数。

对于MoE（混合专家），它们则截然不同。DeepSeek V4-Pro总共有1.6T参数，但每个token只激活49B。模型在内存中很庞大，但生成每个token的计算量只相当于一个490亿参数的模型。这正是MoE的全部意义——用不成比例的计算量换取巨大的模型容量。

实际影响

	密集模型	MoE
所需内存	= 总参数 × 每参数字节数	= 总参数 × 每参数字节数（相同——所有专家都必须加载）
每GPU吞吐量	与总参数量成正比	与激活参数量成正比
擅长	行为可预测、易微调、单GPU部署	高并发服务、无需匹配顶尖计算量即可获得顶尖能力
不擅长	扩展容量超过单GPU能容纳的上限	小规模单用户部署（你需要支付全部内存成本，却没有足够的用户来分摊它）

经验法则： 如果你只有少数几个用户，密集模型在每GB显存上的质量更好。如果你要服务大量并发用户，MoE的优势是决定性的，因为你只需支付一次内存成本，就能以激活参数的速度服务大量请求。

内存计算

加载模型所需的大致内存：

内存 ≈ 参数数量 × 每参数字节数 + KV缓存 + 开销

每参数字节数：

精度	每参数字节数	质量	使用时机
FP16 / BF16	2	参考标准	数据中心GPU上的生产服务
FP8	1	接近参考标准	现代H100/H200上的生产服务
INT8	1	微小损失	FP8不可用时的生产服务
INT4 (Q4_K_M, AWQ, GPTQ)	0.5	小但可接受	本地推理的默认选择
INT3 / INT2	0.25–0.4	明显退化	在消费级硬件上运行旗舰模型的最后手段

另外需要为KV缓存（随上下文长度增长）和运行时增加10–30%的开销。

特例——原生INT4模型，如Kimi K2.6，是经过量化感知训练的，这意味着INT4推理是预期的部署方式，而不是退而求其次的降级方案。与全精度相比，质量损失几乎为零。

实例计算（当前模型）

模型	总参数	激活参数	FP16内存	INT8内存	INT4内存
Gemma 4 9B	9B (密集)	9B	~18 GB	~9 GB	~5 GB
Mistral Small 3 24B	24B (密集)	24B	~48 GB	~24 GB	~12 GB
Qwen 3.5 27B	27B (密集)	27B	~54 GB	~27 GB	~14 GB
Qwen 3.6 35B-A3B (MoE)	35B	3B	~70 GB	~35 GB	~18 GB
Llama 3.3 70B	70B (密集)	70B	~140 GB	~70 GB	~35 GB
Llama 4 Scout (MoE)	109B	17B	~218 GB	~109 GB	~55 GB
Qwen 3.5 122B-A10B (MoE)	122B	10B	~244 GB	~122 GB	~61 GB
DeepSeek V4-Flash (MoE)	284B	13B	~568 GB	~284 GB	~142 GB
Llama 4 Maverick (MoE)	400B	17B	~800 GB	~400 GB	~200 GB
Qwen 3.5-397B-A17B (MoE)	397B	17B	~794 GB	~397 GB	~199 GB
Kimi K2.6 (MoE, 原生INT4)	1T	32B	—	—	~500 GB (原生)
DeepSeek V4-Pro (MoE)	1.6T	49B	~3.2 TB	~1.6 TB	~800 GB

以上仅为模型权重。在此基础上，为KV缓存和开销增加10–30%。

第三部分——硬件：CUDA和MLX的真实数据

2026年有两条可行路径：NVIDIA CUDA（生产标准）和Apple MLX/Metal（单用户大型模型推理的性价比之选）。AMD正在改进，但尚未成为大语言模型服务的主流生产选择。

第一梯队——单张消费级GPU
标签: Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemma 4 Kimi K2 Large Language Models (LLM)Llama 4 Magistral Mistral MLX Nemotron Qwen 3