第二部分将解析现代LLM规模的经济学,以及运行当今模型所需的真实内存和计算成本。
规模:密集模型与混合专家模型,各自的成本
这是大部分人都容易搞错的部分。
两个重要的参数数字
每个现代LLM都有两个相关的规模:
- 总参数量 — 模型在磁盘和内存中的大小。决定了所需的硬件容量。
- 每个Token的活跃参数量 — 生成每个Token时实际参与计算的参数数量。决定了吞吐量(Token/秒)和能源成本。
对于密集模型,这两个数字是相同的。Llama 3.3 70B 每个Token都会使用全部70B参数。
对于MoE(混合专家)模型,它们则大不相同。DeepSeek V4-Pro 总共有1.6T参数,但每个Token仅激活49B。模型在内存中规模巨大,但生成每个Token时计算量却相当于一个49B模型。这就是MoE的全部意义所在——在不按比例增加计算量的前提下获得更大的容量。
实际影响
| 密集模型 | MoE模型 | |
|---|---|---|
| 所需内存 | = 总参数 × 字节/参数 | = 总参数 × 字节/参数(相同——所有专家都必须加载) |
| 每GPU吞吐量 | 与总参数成正比 | 与活跃参数成正比 |
| 最适合 | 可预测的行为、易于微调、单GPU部署 | 高负载服务、前沿能力无需前沿算力 |
| 最不适合 | 扩展容量超出单GPU能力范围 | 小规模单用户部署(你支付了完整内存成本,但用户量不足以摊销它) |
经验法则:如果你只有一两个用户,密集模型能在每GB显存上提供更好的质量。如果你服务于大量并发用户,MoE会胜出,因为你一次性支付内存成本后,可以以活跃参数的速度处理大量请求。
内存计算公式
加载模型所需的大致内存:
内存 ≈ 参数数量 × 每参数字节数 + KV缓存 + 额外开销
每参数字节数:
| 精度 | 字节/参数 | 质量 | 何时使用 |
|---|---|---|---|
| FP16 / BF16 | 2 | 参考基准 | 数据中心GPU上的生产环境服务 |
| FP8 | 1 | 接近参考基准 | 现代H100/H200生产环境服务 |
| INT8 | 1 | 微小损失 | FP8不可用时的生产环境服务 |
| INT4 (Q4_K_M, AWQ, GPTQ) | 0.5 | 小但可接受 | 本地推理的默认选项 |
| INT3 / INT2 | 0.25–0.4 | 明显下降 | 为了在消费级硬件上运行前沿模型的最后手段 |
此外需增加 10–30% 的额外开销(用于KV缓存,随上下文长度增加而增加)和运行时开销。
特殊情况——原生INT4模型,例如 Kimi K2.6 是在量化感知训练下进行的,这意味着INT4推理是其预期的部署方式,而非降级的后备方案。与全精度相比,质量损失几乎为零。
具体示例(当前模型)
| 模型 | 总参数 | 活跃参数 | FP16所需内存 | INT8所需内存 | INT4所需内存 |
|---|---|---|---|---|---|
| Gemma 4 9B | 9B(密集) | 9B | ~18 GB | ~9 GB | ~5 GB |
| Mistral Small 3 24B | 24B(密集) | 24B | ~48 GB | ~24 GB | ~12 GB |
| Qwen 3.5 27B | 27B(密集) | 27B | ~54 GB | ~27 GB | ~14 GB |
| Qwen 3.6 35B-A3B(MoE) | 35B | 3B | ~70 GB | ~35 GB | ~18 GB |
| Llama 3.3 70B | 70B(密集) | 70B | ~140 GB | ~70 GB | ~35 GB |
| Llama 4 Scout(MoE) | 109B | 17B | ~218 GB | ~109 GB | ~55 GB |
| Qwen 3.5 122B-A10B(MoE) | 122B | 10B | ~244 GB | ~122 GB | ~61 GB |
| DeepSeek V4-Flash(MoE) | 284B | 13B | ~568 GB | ~284 GB | ~142 GB |
| Llama 4 Maverick(MoE) | 400B | 17B | ~800 GB | ~400 GB | ~200 GB |
| Qwen 3.5-397B-A17B(MoE) | 397B | 17B | ~794 GB | ~397 GB | ~199 GB |
| Kimi K2.6(MoE,原生INT4) | 1T | 32B | — | — | ~500 GB(原生) |
| DeepSeek V4-Pro(MoE) | 1.6T | 49B | ~3.2 TB | ~1.6 TB | ~800 GB |
以上仅为权重所需。请额外加上10–30%用于KV缓存和开销。
第三部分——硬件:CUDA与MLX,真实数据
2026年两条可行之路:NVIDIA CUDA(生产标准)和Apple MLX/Metal(面向单用户大型模型推理的高性价比选择)。AMD正在改进,但尚未成为LLM服务的主流生产选择。
第一层——单消费级GPU(NVIDIA)
| 硬件 | 显存 | 可运行(INT4) | 可运行(FP16) | 实际用途 |
|---|---|---|---|---|
| RTX 3060 12GB | 12 GB | 最高~13B密集模型,Gemma 4 9B INT4 | 最高~7B密集模型 | 爱好者、学习、小模型开发机 |
| RTX 4070 Ti / 5070 16GB | 16 GB | 最高~22B密集模型,Gemma 4 9B FP16 | 最高~8B密集模型 | 小型编码助手,Gemma智能体 |
| RTX 4090 24GB | 24 GB | 最高~34B密集模型,Qwen 3.6 35B-A3B | 最高~13B密集模型 | 独立开发者的最佳选择 |
| RTX 5090 32GB | 32 GB | 最高~50B密集模型,Mistral Small FP8 | 最高~16B密集模型 | 更多余量,为上下文长度提供未来保障 |
吞吐量示例(RTX 4090):
- Llama 3.3 70B Q4 — ~20–35 t/s
- Qwen 3.6 35B-A3B Q4 — ~50–80 t/s(MoE优势——仅3B活跃)
- Mistral Small 24B Q4 — ~40–60 t/s
此层级下实际生产场景:
- 独立开发者运行私人编码助手(Devstral 24B或Qwen 3.6 35B-A3B)。
- 小团队内部基于公司文档的RAG(Llama 3.3 70B Q4)。
- 初创公司在转向生产硬件前的原型测试。
- 面向高端用户的本地智能体工作流(Gemma 4 9B 带工具调用)。
第二层——多GPU消费级工作站
| 硬件 | 显存 | 可运行 | 实际用途 |
|---|---|---|---|
| 2× RTX 4090(在vLLM中使用张量并行) | 48 GB | Llama 3.3 70B FP8,Qwen 3.6 35B-A3B FP16 | 小团队生产环境服务,微调实验 |
| 2× RTX 5090 | 64 GB | 70B FP16,Llama 4 Scout INT4 | 严肃的本地服务,中端MoE部署 |
| 4× RTX 4090 / 5090 | 96–128 GB | Llama 4 Scout FP8/FP16,Qwen 3.5 122B-A10B INT4 | 内部工具的单租户生产环境 |
注意事项:消费级GPU并非为7×24小时持续负载而设计。散热和电源会成为真正的工程难题。对于超出单工作站范围的任何场景,请考虑数据中心GPU。
实际生产场景:
- 面向约50–200名员工的中等规模SaaS内部AI工具。
- 使用LoRA/QLoRA微调70B模型。
- 为5–20人技术团队运行内部推理服务器。
第三层——Apple Silicon(MLX / Metal)
这是苹果真正具有竞争力的领域——也是大多数人误解权衡关系的地方。
优势:统一内存。一台配备256GB统一内存的Mac Studio可以运行那些通常需要4–8块H100才能运行的模型——而价格却只是其一小部分(Mac大约1万美元对比同等GPU8万美元以上)。
代价:每个请求的吞吐量更低。苹果的GPU核心原始FLOPS低于数据中心NVIDIA,并且推理软件栈(MLX,llama.cpp Metal后端)目前尚未达到CUDA的优化水平(FlashAttention变种、FP8加速、高级批处理)。
| 硬件 | 统一内存 | 可流畅运行(INT4) | 实际用途 |
|---|---|---|---|
| MacBook Pro M4 Max 36GB | 36 GB | 最高~50B密集模型,Qwen 3.6 35B-A3B | 独立开发者编码助手 |
| MacBook Pro M4 Max 64GB | 64 GB | Llama 3.3 70B Q4,Qwen 3.5 122B-A10B Q4 | 高端用户、演示、模型评估 |
| Mac Studio M3 Ultra 96GB | 96 GB | Llama 3.3 70B FP8,Llama 4 Scout INT4 | 重度单用户、小型办公室共享助手 |
| Mac Studio M3 Ultra 192GB | 192 GB | Llama 4 Scout FP8,Llama 4 Maverick INT4,DeepSeek V4-Flash INT4 | 单用户前沿MoE推理 |
| Mac Studio M4 Ultra 256–512GB | 256+ GB | DeepSeek V4-Flash FP8,Kimi K2.6原生INT4,V4-Pro重度量化 | 严肃的本地前沿推理;实现“在本地运行1T模型”这一头条的机器 |
吞吐量示例(Mac Studio M3 Ultra,真实基准测试):
- Llama 3.3 70B Q4 — ~10–15 t/s(相比4090的20–35 t/s,但Mac能运行大得多的模型)
- Qwen 3.6 35B-A3B Q4 — ~25–40 t/s;在同一模型上,MLX大约比Ollama快2倍——值得了解
- Kimi K2.6 原生INT4 — 个位数t/s,但重点是它能运行
- DeepSeek V4-Flash INT4 — 在192GB+机器上约~5–10 t/s
Apple Silicon上的MLX vs llama.cpp:MLX(苹果原生框架)为许多模型提供了最佳性能——在已发布的基准测试中,在Qwen 3.6 35B-A3B上速度是llama.cpp Metal的2倍。llama.cpp拥有更广泛的模型支持。大多数人最终会根据模型同时使用两者。
实际生产场景:
- 独立开发者或小团队在本地运行Llama 3.3 70B或Qwen 3.6 35B-A3B进行日常编码工作——这是2026年该用例的最佳性价比。
- 研究人员无需数据中心访问权限即可评估前沿开源模型。
- 小型咨询公司在现场演示大型模型。
- 注重隐私的高端用户完全离线运行前沿模型。
- 特别是256GB+的Mac Studio,用于“在单台机器上演示Kimi K2.6或DeepSeek V4-Flash”。
MLX不擅长什么:高并发服务。如果你需要服务超过约5个并发用户,NVIDIA毫无疑问胜出。
第四层——单数据中心GPU
| 硬件 | 显存 | 可运行(FP16) | 吞吐量特性 |
|---|---|---|---|
| A100 80GB | 80 GB | Llama 3.3 70B FP16,Mistral Large密集模型,带超大上下文的Qwen 3.6 35B-A3B | 可靠的主力;比H100慢约2倍但更便宜 |
| H100 80GB | 80 GB | 与A100相同 + 原生FP8支持;Llama 4 Scout INT4 | 70B级模型的生产标准 |
| H200 141GB | 141 GB | Llama 4 Scout FP16,Qwen 3.5 122B-A10B FP16,超长上下文 | 100B级MoE的最佳单GPU选择 |
| B200(Blackwell) | 192 GB | DeepSeek V4-Flash INT4,更大的MoE模型 | 当前顶级;相比H100有显著的吞吐量提升 |
实际生产场景:
- 面向数百到数千用户SaaS的生产环境服务(vLLM + H100上的Llama 70B)。
- 批处理管道(从数百万文档中提取结构化数据)。
- 服务数千名员工的企业内部AI平台。
- 以全精度微调7B–13B模型;对70B模型进行LoRA微调。
实际成本:云服务——根据提供商不同,大约$2–5/小时。自建H100——每块GPU大约$25–40K外加服务器。
第五层——多GPU数据中心集群
| 配置 | 总显存 | 可运行 | 用例 |
|---|---|---|---|
| 4× H100 / 2× H200 | 320–280 GB | Kimi K2.6原生INT4,DeepSeek V4-Flash FP8,Llama 4 Maverick INT4 | 2026年新的“前沿开源模型”基线 |
| 8× H100(单台DGX节点) | 640 GB | Llama 4 Maverick FP8,DeepSeek V4-Flash FP16,Kimi K2.6 FP8 | 标准“在生产中部署前沿开源模型”配置 |
| 8× H200 | 1.1 TB | DeepSeek V4-Pro INT8,Kimi K2.6 FP16 | 最高质量的前沿MoE服务 |
| 16× H100+(多节点,InfiniBand) | 1.3 TB+ | DeepSeek V4-Pro FP16,超长上下文前沿服务 | 超大规模服务、模型提供商 |
实际生产场景:
- 为受监管的企业(银行、医院、政府)自托管DeepSeek V4。
- 初创公司将前沿开源模型作为自己的API产品进行服务。
- 拥有数千并发用户的多租户AI平台。
- 研究实验室运行前沿推理 + 微调实验。
第四部分——快速参考决策矩阵
| 如果你的情况是… | 选择这个模型 | 使用这个硬件 |
|---|---|---|
| 独立开发者,需要一个编码助手 | Qwen 3.6 35B-A3B 或 Devstral 24B | RTX 4090 / Mac M4 Max 36GB+ |
| 小团队,内部基于文档的RAG | Llama 3.3 70B(Q4) | RTX 4090 / Mac Studio 96GB / 云H100 |
| 中等规模SaaS,需要自托管AI功能 | Llama 3.3 70B 或 Qwen 3.6 35B-A3B | 1× H100 搭配 vLLM |
| 欧盟企业,GDPR敏感 | Mistral Small / Medium | 1× H100 或 2× RTX 5090,欧盟数据中心 |
| 多语言产品(亚洲+全球) | Qwen 3.5 / 3.6 系列 | 根据你的流量选择规格 |
| 前沿开源质量,受监管行业 | DeepSeek V4-Pro | 8× H200 集群 |
| 自托管前沿编码智能体 | Kimi K2.6(原生INT4) | 4× H100 或 2× H200 |
| 开源智能编码产品(初创公司) | Kimi K2.6 或 DeepSeek V4-Flash | 单台H100 DGX 或托管提供商 |
| 推理/数学研究 | DeepSeek R1 或 V4-Pro | 8× H100 / H200 |
| 预算有限的本地智能体(带工具调用) | Gemma 4 9B | RTX 4070 Ti / Mac M3 Pro |
| 在消费级硬件上进行视觉+文本处理 | Gemma 4 9B(视觉)或 Llama 4 Scout | RTX 4090 / Mac M4 Max |
| 在单台机器上运行前沿模型供个人使用 | Kimi K2.6(原生INT4)或 DeepSeek V4-Flash | Mac Studio M4 Ultra 256GB+ |
| 压榨NVIDIA硬件的最大吞吐量 | Nemotron 变体 | H100/H200/B200 搭配 TensorRT-LLM |
| 长上下文(>1M Token) | Llama 4 Scout(10M)或 DeepSeek V4(1M) | 根据模型大小配置 |
第五部分——三个值得内化的模式
1. MoE用于服务,密集模型用于适配。在单台机器上为单个用户服务?密集模型能给你每GB内存带来更多质量。服务大量用户?MoE胜出,因为活跃参数数量决定了你的每Token成本,而总参数数量决定了你的一次性内存开销。
2. Mac Studio是真实可用的,但仅限于单用户大型模型推理。一台256GB的Mac Studio可以运行那些在NVIDIA硬件上需要花费8万美元以上的模型,速度是单用户级别的。对独立开发者、研究人员、小型咨询公司来说非常有用。不是生产服务平台——在这方面,NVIDIA在吞吐量、批处理和软件成熟度上取胜。当两者都支持某个模型时,使用MLX而不是llama.cpp——2026年有2倍的速度提升。
3. 原生量化改变了部署算法。Kimi K2.6原生以INT4格式发布。DeepSeek V4以FP8 + FP4混合格式发布。这是从过去量化总是质量与适配之间权衡的旧世界的一个重要转变。对于原生量化模型,INT4就是预期的部署方式——你没有放弃任何东西。预计2026年会有更多模型遵循这种模式。
结语
2026年的开源权重覆盖了全部质量范围。不再有任何前沿能力只能通过封闭API才能获得——DeepSeek V4-Pro、Kimi K2.6和Qwen 3.6 Max在生产工作所关注的关键基准测试中,都已接近GPT-5和Claude Opus的水平。真正的工程问题不再是“开源与闭源”——而是“选择哪个开源模型、使用何种量化级别、搭载什么硬件、针对哪种工作负载”。本指南中的数据应该足以让你在不猜测的情况下做出判断。
节奏将继续。预计2026年第三季度末将迎来另一波重大发布——很可能是DeepSeek V4.x、Qwen 4和Llama 4.x的更新。这些架构模式——MoE的经济性、量化的权衡、MLX与CUDA的对比、按硬件规模匹配的矩阵——不会改变。围绕模式来构建你的系统,而不是根据模型名称。








