2026年开源权重LLM操作指南：第二部分

第二部分将解析现代LLM规模的经济学，以及运行当今模型所需的真实内存和计算成本。

规模：密集模型与混合专家模型，各自的成本

这是大部分人都容易搞错的部分。

两个重要的参数数字

每个现代LLM都有两个相关的规模：

总参数量 — 模型在磁盘和内存中的大小。决定了所需的硬件容量。
每个Token的活跃参数量 — 生成每个Token时实际参与计算的参数数量。决定了吞吐量（Token/秒）和能源成本。

对于密集模型，这两个数字是相同的。Llama 3.3 70B 每个Token都会使用全部70B参数。

对于MoE（混合专家）模型，它们则大不相同。DeepSeek V4-Pro 总共有1.6T参数，但每个Token仅激活49B。模型在内存中规模巨大，但生成每个Token时计算量却相当于一个49B模型。这就是MoE的全部意义所在——在不按比例增加计算量的前提下获得更大的容量。

实际影响

	密集模型	MoE模型
所需内存	= 总参数 × 字节/参数	= 总参数 × 字节/参数（相同——所有专家都必须加载）
每GPU吞吐量	与总参数成正比	与活跃参数成正比
最适合	可预测的行为、易于微调、单GPU部署	高负载服务、前沿能力无需前沿算力
最不适合	扩展容量超出单GPU能力范围	小规模单用户部署（你支付了完整内存成本，但用户量不足以摊销它）

经验法则：如果你只有一两个用户，密集模型能在每GB显存上提供更好的质量。如果你服务于大量并发用户，MoE会胜出，因为你一次性支付内存成本后，可以以活跃参数的速度处理大量请求。

内存计算公式

加载模型所需的大致内存：

内存 ≈ 参数数量 × 每参数字节数 + KV缓存 + 额外开销

每参数字节数：

精度	字节/参数	质量	何时使用
FP16 / BF16	2	参考基准	数据中心GPU上的生产环境服务
FP8	1	接近参考基准	现代H100/H200生产环境服务
INT8	1	微小损失	FP8不可用时的生产环境服务
INT4 (Q4_K_M, AWQ, GPTQ)	0.5	小但可接受	本地推理的默认选项
INT3 / INT2	0.25–0.4	明显下降	为了在消费级硬件上运行前沿模型的最后手段

此外需增加 10–30% 的额外开销（用于KV缓存，随上下文长度增加而增加）和运行时开销。

特殊情况——原生INT4模型，例如 Kimi K2.6 是在量化感知训练下进行的，这意味着INT4推理是其预期的部署方式，而非降级的后备方案。与全精度相比，质量损失几乎为零。

具体示例（当前模型）

模型	总参数	活跃参数	FP16所需内存	INT8所需内存	INT4所需内存
Gemma 4 9B	9B（密集）	9B	~18 GB	~9 GB	~5 GB
Mistral Small 3 24B	24B（密集）	24B	~48 GB	~24 GB	~12 GB
Qwen 3.5 27B	27B（密集）	27B	~54 GB	~27 GB	~14 GB
Qwen 3.6 35B-A3B（MoE）	35B	3B	~70 GB	~35 GB	~18 GB
Llama 3.3 70B	70B（密集）	70B	~140 GB	~70 GB	~35 GB
Llama 4 Scout（MoE）	109B	17B	~218 GB	~109 GB	~55 GB
Qwen 3.5 122B-A10B（MoE）	122B	10B	~244 GB	~122 GB	~61 GB
DeepSeek V4-Flash（MoE）	284B	13B	~568 GB	~284 GB	~142 GB
Llama 4 Maverick（MoE）	400B	17B	~800 GB	~400 GB	~200 GB
Qwen 3.5-397B-A17B（MoE）	397B	17B	~794 GB	~397 GB	~199 GB
Kimi K2.6（MoE，原生INT4）	1T	32B	—	—	~500 GB（原生）
DeepSeek V4-Pro（MoE）	1.6T	49B	~3.2 TB	~1.6 TB	~800 GB

以上仅为权重所需。请额外加上10–30%用于KV缓存和开销。

第三部分——硬件：CUDA与MLX，真实数据

2026年两条可行之路：NVIDIA CUDA（生产标准）和Apple MLX/Metal（面向单用户大型模型推理的高性价比选择）。AMD正在改进，但尚未成为LLM服务的主流生产选择。

第一层——单消费级GPU（NVIDIA）

硬件	显存	可运行（INT4）	可运行（FP16）	实际用途
RTX 3060 12GB	12 GB	最高~13B密集模型，Gemma 4 9B INT4	最高~7B密集模型	爱好者、学习、小模型开发机
RTX 4070 Ti / 5070 16GB	16 GB	最高~22B密集模型，Gemma 4 9B FP16	最高~8B密集模型	小型编码助手，Gemma智能体
RTX 4090 24GB	24 GB	最高~34B密集模型，Qwen 3.6 35B-A3B	最高~13B密集模型	独立开发者的最佳选择
RTX 5090 32GB	32 GB	最高~50B密集模型，Mistral Small FP8	最高~16B密集模型	更多余量，为上下文长度提供未来保障

吞吐量示例（RTX 4090）：

Llama 3.3 70B Q4 — ~20–35 t/s
Qwen 3.6 35B-A3B Q4 — ~50–80 t/s（MoE优势——仅3B活跃）
Mistral Small 24B Q4 — ~40–60 t/s

此层级下实际生产场景：

独立开发者运行私人编码助手（Devstral 24B或Qwen 3.6 35B-A3B）。
小团队内部基于公司文档的RAG（Llama 3.3 70B Q4）。
初创公司在转向生产硬件前的原型测试。
面向高端用户的本地智能体工作流（Gemma 4 9B 带工具调用）。

第二层——多GPU消费级工作站

硬件	显存	可运行	实际用途
2× RTX 4090（在vLLM中使用张量并行）	48 GB	Llama 3.3 70B FP8，Qwen 3.6 35B-A3B FP16	小团队生产环境服务，微调实验
2× RTX 5090	64 GB	70B FP16，Llama 4 Scout INT4	严肃的本地服务，中端MoE部署
4× RTX 4090 / 5090	96–128 GB	Llama 4 Scout FP8/FP16，Qwen 3.5 122B-A10B INT4	内部工具的单租户生产环境

注意事项：消费级GPU并非为7×24小时持续负载而设计。散热和电源会成为真正的工程难题。对于超出单工作站范围的任何场景，请考虑数据中心GPU。

实际生产场景：

面向约50–200名员工的中等规模SaaS内部AI工具。
使用LoRA/QLoRA微调70B模型。
为5–20人技术团队运行内部推理服务器。

第三层——Apple Silicon（MLX / Metal）

这是苹果真正具有竞争力的领域——也是大多数人误解权衡关系的地方。

优势：统一内存。一台配备256GB统一内存的Mac Studio可以运行那些通常需要4–8块H100才能运行的模型——而价格却只是其一小部分（Mac大约1万美元对比同等GPU8万美元以上）。

代价：每个请求的吞吐量更低。苹果的GPU核心原始FLOPS低于数据中心NVIDIA，并且推理软件栈（MLX，llama.cpp Metal后端）目前尚未达到CUDA的优化水平（FlashAttention变种、FP8加速、高级批处理）。

硬件	统一内存	可流畅运行（INT4）	实际用途
MacBook Pro M4 Max 36GB	36 GB	最高~50B密集模型，Qwen 3.6 35B-A3B	独立开发者编码助手
MacBook Pro M4 Max 64GB	64 GB	Llama 3.3 70B Q4，Qwen 3.5 122B-A10B Q4	高端用户、演示、模型评估
Mac Studio M3 Ultra 96GB	96 GB	Llama 3.3 70B FP8，Llama 4 Scout INT4	重度单用户、小型办公室共享助手
Mac Studio M3 Ultra 192GB	192 GB	Llama 4 Scout FP8，Llama 4 Maverick INT4，DeepSeek V4-Flash INT4	单用户前沿MoE推理
Mac Studio M4 Ultra 256–512GB	256+ GB	DeepSeek V4-Flash FP8，Kimi K2.6原生INT4，V4-Pro重度量化	严肃的本地前沿推理；实现“在本地运行1T模型”这一头条的机器

吞吐量示例（Mac Studio M3 Ultra，真实基准测试）：

Llama 3.3 70B Q4 — ~10–15 t/s（相比4090的20–35 t/s，但Mac能运行大得多的模型）
Qwen 3.6 35B-A3B Q4 — ~25–40 t/s；在同一模型上，MLX大约比Ollama快2倍——值得了解
Kimi K2.6 原生INT4 — 个位数t/s，但重点是它能运行
DeepSeek V4-Flash INT4 — 在192GB+机器上约~5–10 t/s

Apple Silicon上的MLX vs llama.cpp：MLX（苹果原生框架）为许多模型提供了最佳性能——在已发布的基准测试中，在Qwen 3.6 35B-A3B上速度是llama.cpp Metal的2倍。llama.cpp拥有更广泛的模型支持。大多数人最终会根据模型同时使用两者。

实际生产场景：

独立开发者或小团队在本地运行Llama 3.3 70B或Qwen 3.6 35B-A3B进行日常编码工作——这是2026年该用例的最佳性价比。
研究人员无需数据中心访问权限即可评估前沿开源模型。
小型咨询公司在现场演示大型模型。
注重隐私的高端用户完全离线运行前沿模型。
特别是256GB+的Mac Studio，用于“在单台机器上演示Kimi K2.6或DeepSeek V4-Flash”。

MLX不擅长什么：高并发服务。如果你需要服务超过约5个并发用户，NVIDIA毫无疑问胜出。

第四层——单数据中心GPU

硬件	显存	可运行（FP16）	吞吐量特性
A100 80GB	80 GB	Llama 3.3 70B FP16，Mistral Large密集模型，带超大上下文的Qwen 3.6 35B-A3B	可靠的主力；比H100慢约2倍但更便宜
H100 80GB	80 GB	与A100相同 + 原生FP8支持；Llama 4 Scout INT4	70B级模型的生产标准
H200 141GB	141 GB	Llama 4 Scout FP16，Qwen 3.5 122B-A10B FP16，超长上下文	100B级MoE的最佳单GPU选择
B200（Blackwell）	192 GB	DeepSeek V4-Flash INT4，更大的MoE模型	当前顶级；相比H100有显著的吞吐量提升

实际生产场景：

面向数百到数千用户SaaS的生产环境服务（vLLM + H100上的Llama 70B）。
批处理管道（从数百万文档中提取结构化数据）。
服务数千名员工的企业内部AI平台。
以全精度微调7B–13B模型；对70B模型进行LoRA微调。

实际成本：云服务——根据提供商不同，大约$2–5/小时。自建H100——每块GPU大约$25–40K外加服务器。

第五层——多GPU数据中心集群

配置	总显存	可运行	用例
4× H100 / 2× H200	320–280 GB	Kimi K2.6原生INT4，DeepSeek V4-Flash FP8，Llama 4 Maverick INT4	2026年新的“前沿开源模型”基线
8× H100（单台DGX节点）	640 GB	Llama 4 Maverick FP8，DeepSeek V4-Flash FP16，Kimi K2.6 FP8	标准“在生产中部署前沿开源模型”配置
8× H200	1.1 TB	DeepSeek V4-Pro INT8，Kimi K2.6 FP16	最高质量的前沿MoE服务
16× H100+（多节点，InfiniBand）	1.3 TB+	DeepSeek V4-Pro FP16，超长上下文前沿服务	超大规模服务、模型提供商

实际生产场景：

为受监管的企业（银行、医院、政府）自托管DeepSeek V4。
初创公司将前沿开源模型作为自己的API产品进行服务。
拥有数千并发用户的多租户AI平台。
研究实验室运行前沿推理 + 微调实验。

第四部分——快速参考决策矩阵

如果你的情况是…	选择这个模型	使用这个硬件
独立开发者，需要一个编码助手	Qwen 3.6 35B-A3B 或 Devstral 24B	RTX 4090 / Mac M4 Max 36GB+
小团队，内部基于文档的RAG	Llama 3.3 70B（Q4）	RTX 4090 / Mac Studio 96GB / 云H100
中等规模SaaS，需要自托管AI功能	Llama 3.3 70B 或 Qwen 3.6 35B-A3B	1× H100 搭配 vLLM
欧盟企业，GDPR敏感	Mistral Small / Medium	1× H100 或 2× RTX 5090，欧盟数据中心
多语言产品（亚洲+全球）	Qwen 3.5 / 3.6 系列	根据你的流量选择规格
前沿开源质量，受监管行业	DeepSeek V4-Pro	8× H200 集群
自托管前沿编码智能体	Kimi K2.6（原生INT4）	4× H100 或 2× H200
开源智能编码产品（初创公司）	Kimi K2.6 或 DeepSeek V4-Flash	单台H100 DGX 或托管提供商
推理/数学研究	DeepSeek R1 或 V4-Pro	8× H100 / H200
预算有限的本地智能体（带工具调用）	Gemma 4 9B	RTX 4070 Ti / Mac M3 Pro
在消费级硬件上进行视觉+文本处理	Gemma 4 9B（视觉）或 Llama 4 Scout	RTX 4090 / Mac M4 Max
在单台机器上运行前沿模型供个人使用	Kimi K2.6（原生INT4）或 DeepSeek V4-Flash	Mac Studio M4 Ultra 256GB+
压榨NVIDIA硬件的最大吞吐量	Nemotron 变体	H100/H200/B200 搭配 TensorRT-LLM
长上下文（>1M Token）	Llama 4 Scout（10M）或 DeepSeek V4（1M）	根据模型大小配置

第五部分——三个值得内化的模式

1. MoE用于服务，密集模型用于适配。在单台机器上为单个用户服务？密集模型能给你每GB内存带来更多质量。服务大量用户？MoE胜出，因为活跃参数数量决定了你的每Token成本，而总参数数量决定了你的一次性内存开销。

2. Mac Studio是真实可用的，但仅限于单用户大型模型推理。一台256GB的Mac Studio可以运行那些在NVIDIA硬件上需要花费8万美元以上的模型，速度是单用户级别的。对独立开发者、研究人员、小型咨询公司来说非常有用。不是生产服务平台——在这方面，NVIDIA在吞吐量、批处理和软件成熟度上取胜。当两者都支持某个模型时，使用MLX而不是llama.cpp——2026年有2倍的速度提升。

3. 原生量化改变了部署算法。Kimi K2.6原生以INT4格式发布。DeepSeek V4以FP8 + FP4混合格式发布。这是从过去量化总是质量与适配之间权衡的旧世界的一个重要转变。对于原生量化模型，INT4就是预期的部署方式——你没有放弃任何东西。预计2026年会有更多模型遵循这种模式。

结语

2026年的开源权重覆盖了全部质量范围。不再有任何前沿能力只能通过封闭API才能获得——DeepSeek V4-Pro、Kimi K2.6和Qwen 3.6 Max在生产工作所关注的关键基准测试中，都已接近GPT-5和Claude Opus的水平。真正的工程问题不再是“开源与闭源”——而是“选择哪个开源模型、使用何种量化级别、搭载什么硬件、针对哪种工作负载”。本指南中的数据应该足以让你在不猜测的情况下做出判断。

节奏将继续。预计2026年第三季度末将迎来另一波重大发布——很可能是DeepSeek V4.x、Qwen 4和Llama 4.x的更新。这些架构模式——MoE的经济性、量化的权衡、MLX与CUDA的对比、按硬件规模匹配的矩阵——不会改变。围绕模式来构建你的系统，而不是根据模型名称。

标签: Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemma 4 Kimi K2 Llama 4 Magistral Mistral MLX Nemotron Qwen 大语言模型（LLM）