• Latest
Open-Weights LLMs 2026

2026年开源权重LLM操作指南:第二部分

16 5 月, 2026
How to Cut AI Coding Costs with Claude, Qwen, and DeepSeek

停止支付高昂费用:如何利用Claude、Qwen和DeepSeek降低AI编码成本

3 6 月, 2026
The Qwen Family: Open-Weight AI from Alibaba

通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?

17 5 月, 2026
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
SAVED POSTS
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
aplicar.AI
No Result
View All Result
首页 AI 算力
Open-Weights LLMs 2026

Open-Weights LLMs 2026

2026年开源权重LLM操作指南:第二部分

Aplicar.AI by Aplicar.AI
16 5 月, 2026
in AI 算力, Amazon AWS, Apple, DeepSeek, MiniMax, Mistral AI, Moonshot AI, NVIDIA, 垂直领域AI, 本地AI, 阿里巴巴
0
Share via emailShare via WhatsappShare to Facebook
  • EnglishEnglish
  • EspañolEspañol
  • PortuguêsPortuguês
  • 中文 (中国)中文 (中国)

第二部分将解析现代LLM规模的经济学,以及运行当今模型所需的真实内存和计算成本。

规模:密集模型与混合专家模型,各自的成本

这是大部分人都容易搞错的部分。

两个重要的参数数字

每个现代LLM都有两个相关的规模:

  • 总参数量 — 模型在磁盘和内存中的大小。决定了所需的硬件容量。
  • 每个Token的活跃参数量 — 生成每个Token时实际参与计算的参数数量。决定了吞吐量(Token/秒)和能源成本。

对于密集模型,这两个数字是相同的。Llama 3.3 70B 每个Token都会使用全部70B参数。

对于MoE(混合专家)模型,它们则大不相同。DeepSeek V4-Pro 总共有1.6T参数,但每个Token仅激活49B。模型在内存中规模巨大,但生成每个Token时计算量却相当于一个49B模型。这就是MoE的全部意义所在——在不按比例增加计算量的前提下获得更大的容量。

实际影响

密集模型MoE模型
所需内存= 总参数 × 字节/参数= 总参数 × 字节/参数(相同——所有专家都必须加载)
每GPU吞吐量与总参数成正比与活跃参数成正比
最适合可预测的行为、易于微调、单GPU部署高负载服务、前沿能力无需前沿算力
最不适合扩展容量超出单GPU能力范围小规模单用户部署(你支付了完整内存成本,但用户量不足以摊销它)

经验法则:如果你只有一两个用户,密集模型能在每GB显存上提供更好的质量。如果你服务于大量并发用户,MoE会胜出,因为你一次性支付内存成本后,可以以活跃参数的速度处理大量请求。

内存计算公式

加载模型所需的大致内存:

内存 ≈ 参数数量 × 每参数字节数 + KV缓存 + 额外开销

每参数字节数:

精度字节/参数质量何时使用
FP16 / BF162参考基准数据中心GPU上的生产环境服务
FP81接近参考基准现代H100/H200生产环境服务
INT81微小损失FP8不可用时的生产环境服务
INT4 (Q4_K_M, AWQ, GPTQ)0.5小但可接受本地推理的默认选项
INT3 / INT20.25–0.4明显下降为了在消费级硬件上运行前沿模型的最后手段

此外需增加 10–30% 的额外开销(用于KV缓存,随上下文长度增加而增加)和运行时开销。

特殊情况——原生INT4模型,例如 Kimi K2.6 是在量化感知训练下进行的,这意味着INT4推理是其预期的部署方式,而非降级的后备方案。与全精度相比,质量损失几乎为零。

具体示例(当前模型)

模型总参数活跃参数FP16所需内存INT8所需内存INT4所需内存
Gemma 4 9B9B(密集)9B~18 GB~9 GB~5 GB
Mistral Small 3 24B24B(密集)24B~48 GB~24 GB~12 GB
Qwen 3.5 27B27B(密集)27B~54 GB~27 GB~14 GB
Qwen 3.6 35B-A3B(MoE)35B3B~70 GB~35 GB~18 GB
Llama 3.3 70B70B(密集)70B~140 GB~70 GB~35 GB
Llama 4 Scout(MoE)109B17B~218 GB~109 GB~55 GB
Qwen 3.5 122B-A10B(MoE)122B10B~244 GB~122 GB~61 GB
DeepSeek V4-Flash(MoE)284B13B~568 GB~284 GB~142 GB
Llama 4 Maverick(MoE)400B17B~800 GB~400 GB~200 GB
Qwen 3.5-397B-A17B(MoE)397B17B~794 GB~397 GB~199 GB
Kimi K2.6(MoE,原生INT4)1T32B——~500 GB(原生)
DeepSeek V4-Pro(MoE)1.6T49B~3.2 TB~1.6 TB~800 GB

以上仅为权重所需。请额外加上10–30%用于KV缓存和开销。


第三部分——硬件:CUDA与MLX,真实数据

2026年两条可行之路:NVIDIA CUDA(生产标准)和Apple MLX/Metal(面向单用户大型模型推理的高性价比选择)。AMD正在改进,但尚未成为LLM服务的主流生产选择。

第一层——单消费级GPU(NVIDIA)

硬件显存可运行(INT4)可运行(FP16)实际用途
RTX 3060 12GB12 GB最高~13B密集模型,Gemma 4 9B INT4最高~7B密集模型爱好者、学习、小模型开发机
RTX 4070 Ti / 5070 16GB16 GB最高~22B密集模型,Gemma 4 9B FP16最高~8B密集模型小型编码助手,Gemma智能体
RTX 4090 24GB24 GB最高~34B密集模型,Qwen 3.6 35B-A3B最高~13B密集模型独立开发者的最佳选择
RTX 5090 32GB32 GB最高~50B密集模型,Mistral Small FP8最高~16B密集模型更多余量,为上下文长度提供未来保障

吞吐量示例(RTX 4090):

  • Llama 3.3 70B Q4 — ~20–35 t/s
  • Qwen 3.6 35B-A3B Q4 — ~50–80 t/s(MoE优势——仅3B活跃)
  • Mistral Small 24B Q4 — ~40–60 t/s

此层级下实际生产场景:

  • 独立开发者运行私人编码助手(Devstral 24B或Qwen 3.6 35B-A3B)。
  • 小团队内部基于公司文档的RAG(Llama 3.3 70B Q4)。
  • 初创公司在转向生产硬件前的原型测试。
  • 面向高端用户的本地智能体工作流(Gemma 4 9B 带工具调用)。

第二层——多GPU消费级工作站

硬件显存可运行实际用途
2× RTX 4090(在vLLM中使用张量并行)48 GBLlama 3.3 70B FP8,Qwen 3.6 35B-A3B FP16小团队生产环境服务,微调实验
2× RTX 509064 GB70B FP16,Llama 4 Scout INT4严肃的本地服务,中端MoE部署
4× RTX 4090 / 509096–128 GBLlama 4 Scout FP8/FP16,Qwen 3.5 122B-A10B INT4内部工具的单租户生产环境

注意事项:消费级GPU并非为7×24小时持续负载而设计。散热和电源会成为真正的工程难题。对于超出单工作站范围的任何场景,请考虑数据中心GPU。

实际生产场景:

  • 面向约50–200名员工的中等规模SaaS内部AI工具。
  • 使用LoRA/QLoRA微调70B模型。
  • 为5–20人技术团队运行内部推理服务器。

第三层——Apple Silicon(MLX / Metal)

这是苹果真正具有竞争力的领域——也是大多数人误解权衡关系的地方。

优势:统一内存。一台配备256GB统一内存的Mac Studio可以运行那些通常需要4–8块H100才能运行的模型——而价格却只是其一小部分(Mac大约1万美元对比同等GPU8万美元以上)。

代价:每个请求的吞吐量更低。苹果的GPU核心原始FLOPS低于数据中心NVIDIA,并且推理软件栈(MLX,llama.cpp Metal后端)目前尚未达到CUDA的优化水平(FlashAttention变种、FP8加速、高级批处理)。

硬件统一内存可流畅运行(INT4)实际用途
MacBook Pro M4 Max 36GB36 GB最高~50B密集模型,Qwen 3.6 35B-A3B独立开发者编码助手
MacBook Pro M4 Max 64GB64 GBLlama 3.3 70B Q4,Qwen 3.5 122B-A10B Q4高端用户、演示、模型评估
Mac Studio M3 Ultra 96GB96 GBLlama 3.3 70B FP8,Llama 4 Scout INT4重度单用户、小型办公室共享助手
Mac Studio M3 Ultra 192GB192 GBLlama 4 Scout FP8,Llama 4 Maverick INT4,DeepSeek V4-Flash INT4单用户前沿MoE推理
Mac Studio M4 Ultra 256–512GB256+ GBDeepSeek V4-Flash FP8,Kimi K2.6原生INT4,V4-Pro重度量化严肃的本地前沿推理;实现“在本地运行1T模型”这一头条的机器

吞吐量示例(Mac Studio M3 Ultra,真实基准测试):

  • Llama 3.3 70B Q4 — ~10–15 t/s(相比4090的20–35 t/s,但Mac能运行大得多的模型)
  • Qwen 3.6 35B-A3B Q4 — ~25–40 t/s;在同一模型上,MLX大约比Ollama快2倍——值得了解
  • Kimi K2.6 原生INT4 — 个位数t/s,但重点是它能运行
  • DeepSeek V4-Flash INT4 — 在192GB+机器上约~5–10 t/s

Apple Silicon上的MLX vs llama.cpp:MLX(苹果原生框架)为许多模型提供了最佳性能——在已发布的基准测试中,在Qwen 3.6 35B-A3B上速度是llama.cpp Metal的2倍。llama.cpp拥有更广泛的模型支持。大多数人最终会根据模型同时使用两者。

实际生产场景:

  • 独立开发者或小团队在本地运行Llama 3.3 70B或Qwen 3.6 35B-A3B进行日常编码工作——这是2026年该用例的最佳性价比。
  • 研究人员无需数据中心访问权限即可评估前沿开源模型。
  • 小型咨询公司在现场演示大型模型。
  • 注重隐私的高端用户完全离线运行前沿模型。
  • 特别是256GB+的Mac Studio,用于“在单台机器上演示Kimi K2.6或DeepSeek V4-Flash”。

MLX不擅长什么:高并发服务。如果你需要服务超过约5个并发用户,NVIDIA毫无疑问胜出。

第四层——单数据中心GPU

硬件显存可运行(FP16)吞吐量特性
A100 80GB80 GBLlama 3.3 70B FP16,Mistral Large密集模型,带超大上下文的Qwen 3.6 35B-A3B可靠的主力;比H100慢约2倍但更便宜
H100 80GB80 GB与A100相同 + 原生FP8支持;Llama 4 Scout INT470B级模型的生产标准
H200 141GB141 GBLlama 4 Scout FP16,Qwen 3.5 122B-A10B FP16,超长上下文100B级MoE的最佳单GPU选择
B200(Blackwell)192 GBDeepSeek V4-Flash INT4,更大的MoE模型当前顶级;相比H100有显著的吞吐量提升

实际生产场景:

  • 面向数百到数千用户SaaS的生产环境服务(vLLM + H100上的Llama 70B)。
  • 批处理管道(从数百万文档中提取结构化数据)。
  • 服务数千名员工的企业内部AI平台。
  • 以全精度微调7B–13B模型;对70B模型进行LoRA微调。

实际成本:云服务——根据提供商不同,大约$2–5/小时。自建H100——每块GPU大约$25–40K外加服务器。

第五层——多GPU数据中心集群

配置总显存可运行用例
4× H100 / 2× H200320–280 GBKimi K2.6原生INT4,DeepSeek V4-Flash FP8,Llama 4 Maverick INT42026年新的“前沿开源模型”基线
8× H100(单台DGX节点)640 GBLlama 4 Maverick FP8,DeepSeek V4-Flash FP16,Kimi K2.6 FP8标准“在生产中部署前沿开源模型”配置
8× H2001.1 TBDeepSeek V4-Pro INT8,Kimi K2.6 FP16最高质量的前沿MoE服务
16× H100+(多节点,InfiniBand)1.3 TB+DeepSeek V4-Pro FP16,超长上下文前沿服务超大规模服务、模型提供商

实际生产场景:

  • 为受监管的企业(银行、医院、政府)自托管DeepSeek V4。
  • 初创公司将前沿开源模型作为自己的API产品进行服务。
  • 拥有数千并发用户的多租户AI平台。
  • 研究实验室运行前沿推理 + 微调实验。

第四部分——快速参考决策矩阵

如果你的情况是…选择这个模型使用这个硬件
独立开发者,需要一个编码助手Qwen 3.6 35B-A3B 或 Devstral 24BRTX 4090 / Mac M4 Max 36GB+
小团队,内部基于文档的RAGLlama 3.3 70B(Q4)RTX 4090 / Mac Studio 96GB / 云H100
中等规模SaaS,需要自托管AI功能Llama 3.3 70B 或 Qwen 3.6 35B-A3B1× H100 搭配 vLLM
欧盟企业,GDPR敏感Mistral Small / Medium1× H100 或 2× RTX 5090,欧盟数据中心
多语言产品(亚洲+全球)Qwen 3.5 / 3.6 系列根据你的流量选择规格
前沿开源质量,受监管行业DeepSeek V4-Pro8× H200 集群
自托管前沿编码智能体Kimi K2.6(原生INT4)4× H100 或 2× H200
开源智能编码产品(初创公司)Kimi K2.6 或 DeepSeek V4-Flash单台H100 DGX 或托管提供商
推理/数学研究DeepSeek R1 或 V4-Pro8× H100 / H200
预算有限的本地智能体(带工具调用)Gemma 4 9BRTX 4070 Ti / Mac M3 Pro
在消费级硬件上进行视觉+文本处理Gemma 4 9B(视觉)或 Llama 4 ScoutRTX 4090 / Mac M4 Max
在单台机器上运行前沿模型供个人使用Kimi K2.6(原生INT4)或 DeepSeek V4-FlashMac Studio M4 Ultra 256GB+
压榨NVIDIA硬件的最大吞吐量Nemotron 变体H100/H200/B200 搭配 TensorRT-LLM
长上下文(>1M Token)Llama 4 Scout(10M)或 DeepSeek V4(1M)根据模型大小配置

第五部分——三个值得内化的模式

1. MoE用于服务,密集模型用于适配。在单台机器上为单个用户服务?密集模型能给你每GB内存带来更多质量。服务大量用户?MoE胜出,因为活跃参数数量决定了你的每Token成本,而总参数数量决定了你的一次性内存开销。

2. Mac Studio是真实可用的,但仅限于单用户大型模型推理。一台256GB的Mac Studio可以运行那些在NVIDIA硬件上需要花费8万美元以上的模型,速度是单用户级别的。对独立开发者、研究人员、小型咨询公司来说非常有用。不是生产服务平台——在这方面,NVIDIA在吞吐量、批处理和软件成熟度上取胜。当两者都支持某个模型时,使用MLX而不是llama.cpp——2026年有2倍的速度提升。

3. 原生量化改变了部署算法。Kimi K2.6原生以INT4格式发布。DeepSeek V4以FP8 + FP4混合格式发布。这是从过去量化总是质量与适配之间权衡的旧世界的一个重要转变。对于原生量化模型,INT4就是预期的部署方式——你没有放弃任何东西。预计2026年会有更多模型遵循这种模式。


结语

2026年的开源权重覆盖了全部质量范围。不再有任何前沿能力只能通过封闭API才能获得——DeepSeek V4-Pro、Kimi K2.6和Qwen 3.6 Max在生产工作所关注的关键基准测试中,都已接近GPT-5和Claude Opus的水平。真正的工程问题不再是“开源与闭源”——而是“选择哪个开源模型、使用何种量化级别、搭载什么硬件、针对哪种工作负载”。本指南中的数据应该足以让你在不猜测的情况下做出判断。

节奏将继续。预计2026年第三季度末将迎来另一波重大发布——很可能是DeepSeek V4.x、Qwen 4和Llama 4.x的更新。这些架构模式——MoE的经济性、量化的权衡、MLX与CUDA的对比、按硬件规模匹配的矩阵——不会改变。围绕模式来构建你的系统,而不是根据模型名称。

标签: Codestral / DevstralCUDADeepSeek R1DeepSeek V4-FlashDeepSeek V4-ProGemma 4Kimi K2Llama 4MagistralMistralMLXNemotronQwen大语言模型(LLM)
SendSendShare
Aplicar.AI

Aplicar.AI

相关故事

How to Cut AI Coding Costs with Claude, Qwen, and DeepSeek

停止支付高昂费用:如何利用Claude、Qwen和DeepSeek降低AI编码成本

by Aplicar.AI
3 6 月, 2026
0

如果你的团队将所有编程任务都交给一个顶级AI模型,很可能...

The Qwen Family: Open-Weight AI from Alibaba

通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?

by Aplicar.AI
17 5 月, 2026
0

2026 年的 AI 圈,热闹得有点儿离谱。OpenAI...

AnythingLLM, Open Source, Private, Local

AnythingLLM实践指南:安装、使用与真实场景搭建

by Aplicar.AI
15 5 月, 2026
0

如果你曾暗自思忖过:"我到底能不能把这份合同直接粘贴到C...

Running NVIDIA's Nemotron Open Models on Your Mac with MLX

在 Mac 上使用 MLX 运行 NVIDIA 的 Nemotron 开放模型

by Aplicar.AI
11 5 月, 2026
0

"Apple Silicon" 和 "NVIDIA AI...

Next Post
Anthropic Claude Certified Architect

Anthropic 刚刚推出了一项AI认证。它究竟是什么——以及它到底重不重要?

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

学习与应用 AI

Aplicar.AI logo

AI 发展迅速。我们帮助你跟上步伐,理解重要的内容,并加以应用——你需要的一切学习和应用 AI 的资源都在这里。

最新文章

  • 停止支付高昂费用:如何利用Claude、Qwen和DeepSeek降低AI编码成本
  • 通义千问完全指南:阿里这一手开源大模型,到底香在哪儿?
  • Anthropic 神话:强大到被雪藏的 AI 模型

分类

  • AI 算力
  • AI工具
  • AI新闻
  • AI编程
  • AI视频
  • AI音频
  • Amazon AWS
  • Anthropic
  • Apple
  • DeepSeek
  • Google
  • Microsoft
  • MiniMax
  • Mistral AI
  • Moonshot AI
  • NVIDIA
  • OpenAI
  • 垂直领域AI
  • 开源AI
  • 智能体 AI
  • 本地AI
  • 模型推理
  • 阿里巴巴

标签

AI benchmarks AI网络安全 AI 认证 Apple Silicon AWS Bedrock Claude AI Claude Mythos Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemini AI Gemma 4 Kimi K2 Llama 4 Magistral Mistral MLX Nemotron OpenAI GPT Qwen Qwen-Coder Qwen-Image Qwen-Math Qwen-Omni Qwen-VL Tensor Processing Unit (TPU) Trainium Wan 大语言模型(LLM) 对比评测 教程 高级
  • English
  • Español
  • Português
  • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

我们使用 Cookie 为您提供最佳的网站体验。 您可以在 中了解我们使用的 Cookie 或将其关闭。

No Result
View All Result
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Privacy Overview
学习与应用AI

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.

Necessary

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.

技术支持来自  GDPR Cookie Compliance