• Latest
Open-Weights LLMs 2026

2026年开源权重大模型实用指南

8 5 月, 2026
Anthropic Claude Training

为什么你应该参加Anthropic Claude培训(以及你实际能从中获得什么)

9 5 月, 2026
The Silicon Showdown: Inside the $200 Billion Battle Reshaping AI

硅谷对决:重塑人工智能未来的2000亿美元大战内幕

3 5 月, 2026
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
SAVED POSTS
AI News
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)
No Result
View All Result
aplicar.AI
No Result
View All Result
首页 AI提供商 Amazon AWS
Open-Weights LLMs 2026

Open-Weights LLMs 2026

2026年开源权重大模型实用指南

Aplicar.AI by Aplicar.AI
8 5 月, 2026
in Amazon AWS, AI 算力, Apple, DeepSeek, MiniMax, Mistral AI, Moonshot AI, NVIDIA, Uncategorized, 本地AI, 阿里巴巴
0
1
SHARES
10
VIEWS
Share via emailShare via WhatsappShare to Facebook
  • EnglishEnglish
  • EspañolEspañol
  • PortuguêsPortuguês
  • 中文 (中国)中文 (中国)

一份在生产环境中运行开源模型的实用指南:哪个模型适合什么任务、需要多大参数、以及该用什么硬件——涵盖CUDA和MLX两种方案。

2026年5月更新——反映2026年4月的发布浪潮(DeepSeek V4、Qwen 3.6、Kimi K2.6)。


为什么要聚焦开源权重

闭源API很简单。你付钱,得到答案。真正有趣的工程——以及大部分误解——都发生在开源权重这边,因为你必须认真考虑参数数量、MoE架构、量化、VRAM,以及你的Mac Studio到底能不能跑得了别人发推说的那个1.6T模型。

本指南只涉及开源权重。下面提到的每个模型都可以下载,在你的硬件上运行,并部署到产品中,无需按token付费。代价是你得了解硬件。这正是本指南的主要内容。

关于时效性:开源权重前沿发展得太快了——本指南中最重要的三个模型(DeepSeek V4、Qwen 3.6、Kimi K2.6)都在2026年4月的30天内发布。具体的版本号会不断变化,但架构模式和对硬件的需求不会变。


第一部分——2026年值得关注的开放模型

在生产环境中,大约有7个模型家族值得了解。不在此列表中的,要么是研究原型,要么是这些模型的较小变体。


DeepSeek——V4系列(2026年4月24日发布)

DeepSeek V4是目前开源权重的顶尖水平。同时发布了两个变体,均采用MIT许可,均支持100万token的上下文。主要架构变化是采用了混合压缩稀疏注意力+强压缩注意力机制,将推理FLOPs降低至V3.2的大约27%,在100万上下文下,KV缓存占用降低至大约10%。

你会实际使用的规格:

  • DeepSeek V4-Pro(MoE,激活49B / 总计1.6T)——顶尖水平,在编码和推理方面可与Claude Opus和GPT-5竞争。
  • DeepSeek V4-Flash(MoE,激活13B / 总计284B)——快速、高效,大多数团队能负担的多GPU系统即可运行。
  • DeepSeek R1(仍在维护,MoE 37B/671B)——专注于推理的前代版本;如果你已在其上部署,或者想要一个更小的顶尖推理选项,它仍有用武之地。

许可证: MIT。非常清晰。

实际应用场景:

  1. 面向受监管企业的自托管“私有GPT-5”——例如巴西银行、美国国防承包商。当无法向闭源API发送数据但又需要顶尖质量时,在私有数据中心使用8× H200运行V4-Pro是2026年的标准答案。
  2. 大规模、高并发的编码流水线。 V4-Flash可以快速处理拉取请求、代码审查、重构建议、自动化迁移工具。凭借激活的130亿参数,每个GPU的吞吐量非常出色,算上硬件成本后,每个token的代价微乎其微。
  3. 大尺度长上下文文档分析——这在半年前还只能通过API完成。V4拥有100万上下文和新的注意力机制,在长距离上确实有效(KV缓存不会爆炸)。适用于法律文件发现、科学文献综述、全代码库分析。
  4. 通过DeepSeek API实现低成本推理——如果你不想自己部署。V4-Flash每百万输入token仅0.14美元,大约是GPT-5旗舰版的1/18,对于大多数生产工作来说足够好。
  5. 专有微调的顶尖基础模型。 MIT许可使得商业微调在法律上毫无问题——这对希望在开源基础上构建有竞争力的垂直SaaS产品至关重要。

硬件现实: V4-Pro以全精度运行需要8× H100/H200集群。V4-Flash在FP8精度下,2–4× H100就能流畅运行;如果只是单用户推理,经过重度量化的版本也可以在高端Mac Studio上运行。大多数团队会通过API使用V4-Pro,并在需要控制权时自行部署V4-Flash。


Moonshot——Kimi K2.6(2026年4月发布)

截至2026年年中,Kimi K2.6是开源权重中最强的编码模型——在所有相关的自主长周期编码任务基准测试中名列前茅。它原生支持INT4 QAT(量化感知训练),这意味着它专门设计为在量化后运行且几乎没有质量损失。还包括“智能体集群”能力——可以协调多达300个并行子智能体。

你会实际使用的规格:

  • Kimi K2.6(MoE,激活32B / 总计1T)——原生INT4,支持视觉,256K上下文。
  • Kimi K2.5(前代版本)——仍被广泛部署,托管成本更低。

许可证: 修改版MIT(几乎所有商业使用免费;月活跃用户超过1亿或月收入超过2000万美元时需要注明出处)。

实际应用场景:

  1. 生产环境中的智能体编码产品(开源的Cursor/Devin替代品)。2026年,K2.6是其中几个产品的背后模型。对于风投支持的AI编码初创公司来说,可以绕过API实现更好的经济效益。
  2. 在企业代码库上自托管代码审查和PR分析。原生的INT4量化在这里至关重要——你能以远低于V4-Pro所需的硬件成本,获得顶尖的编码质量。
  3. 长周期自主任务——Moonshot演示了K2.6在12+小时内执行4,000多次工具调用,以完成一个真实的工程项目。适用于隔夜批处理智能体工作(代码库迁移、大规模重构、文档生成)。
  4. 多语言代码库(Rust + Go + Python + 前端 + DevOps)。K2.6跨语言的泛化能力优于大多数专注于编码的模型(后者通常偏重Python)。
  5. 那些在自己硬件上部署顶尖编码能力能成为竞争优势的应用——比如国防软件、金融交易系统、医疗设备固件。代码本身就是知识产权,不能离开公司环境。

硬件现实: 原生INT4使得K2.6在4× H100或2× H200上即可实际部署,这比V4-Pro容易获得得多。重度量化版本可在256GB Mac Studio上运行,供单用户推理。


阿里巴巴——Qwen 3.5 / 3.6系列

功能最全面的开源模型系列。涵盖了从子10亿参数到1T级MoE旗舰的所有尺寸。Qwen 3.5(2026年2月)是主要的代际版本;Qwen 3.6(2026年3-4月)是在其基础上的智能体编码能力增强更新。两条产品线都在积极维护。

你会实际使用的规格(Qwen 3.5 / 3.6混合):

  • Qwen 3.5 4B / 9B / 27B(密集模型)——全能强者。其中9B版本在GPQA Diamond上得分81.7,这在300亿参数以下的模型中史无前例。
  • Qwen 3.6 27B(密集模型)——27B的更新版,智能体编码能力更强。
  • Qwen 3.6 35B-A3B(MoE,激活3B / 总计35B)——2026年整个开源生态中的吞吐量最佳选择。以30亿参数级别的速度,提供350亿参数级别的输出质量。
  • Qwen 3.5 122B-A10B(MoE,激活10B / 总计122B)——可在64GB Mac上运行。
  • Qwen 3.5-397B-A17B 旗舰版(MoE,激活17B / 总计397B)——顶尖水平。
  • Qwen 3.6-Max-Preview——目前仅限API,非开源权重;提及其名是因为开源的3.6衍生模型源自于此。

许可证: 约300亿参数以下的版本为Apache 2.0;较大的旗舰版本为自定义许可(可用于商业)。

实际应用场景:

  1. 全球产品的多语言客户支持——Qwen处理中文、日语、韩语、印尼语、越南语、印地语、阿拉伯语、葡萄牙语、西班牙语的质量是Llama无法比拟的。任何有大量非英语流量的产品的默认选择。
  2. 经济高效的高吞吐量聊天后端。 Qwen 3.6 35B-A3B每块GPU可以服务3–5倍于密集30B模型的并发用户,因为每个token只激活30亿参数。2026年生产服务的性价比之王。
  3. 在Apple Silicon上进行本地智能体编码。 Qwen 3.6 35B-A3B通过MLX可以在64GB MacBook Pro M系列上流畅运行。这个组合(MLX + 35B-A3B MoE)正成为独立开发者的标准配置。
  4. 亚太地区的本地部署——在这些地区,采购时可能偏好或要求使用中国出品的模型。
  5. 垂直SaaS的微调基座。 Qwen 3.5的4B–14B尺寸是整个生态系统中性价比最高的微调基座——小到可以在单块GPU上微调,能力又足以发布产品。
  6. 边缘部署。 Qwen 3.5的0.8B和2B版本可在手机和物联网设备上运行——适用于移动应用中的离线AI功能。

Meta——Llama 4系列

全球支持最广泛的开源模型系列。每个推理框架、微调库和工具集成都优先支持Llama。Llama 4引入了MoE(Scout + Maverick)和原生多模态能力。Llama 3.3 70B仍然是密集型的骨干主力;Llama 4 Behemoth(激活288B / 总计约2T)作为教师模型发布,但尚未以开源权重形式开放。

你会实际使用的规格:

  • Llama 3.3 70B(密集模型)——仍然是生产中部署最广的700亿参数开源模型。
  • Llama 4 Scout(MoE,激活17B / 总计109B,16个专家)——使用INT4量化后可在单块H100上运行,支持1000万token上下文。
  • Llama 4 Maverick(MoE,激活17B / 总计400B,128个专家)——可在单台H100 DGX主机(8× H100)上运行,支持100万上下文,原生多模态。

许可证: Llama 4社区许可。对大多数用户宽松;月活跃用户超过7亿需要特殊许可。截至2026年初,欧盟注册公司无法使用——对欧洲部署而言是一个重要的“陷阱”。

实际应用场景:

  1. 基于公司维基/文档训练的内部助理。 对Llama 3.3 70B使用LoRA在内部文档上进行微调,通过vLLM在单块H100上提供服务,每位员工就相当于拥有了一个私有的ChatGPT级别助手。这是最常见的Llama部署模式。
  2. 在文档库上进行多模态RAG(包含图表的PDF、扫描表单、图表)。Llama 4 Scout的原生图像理解能力加上1000万上下文,仅用一个模型就能处理。
  3. 长文档工作流——全代码库分析、书籍长度文档处理、多轮对话记忆。Scout的1000万上下文在这里确实有用。
  4. 需要在欧盟以外地区自托管的多租户SaaS。 Llama是最安全的开源选择,因为你所需的所有依赖(vLLM, TGI, Ollama, llama.cpp, MLX)都在第一时间支持它。
  5. 需要最大库支持的微调团队。 Llama是整个生态系统中文档最完善、支持最广泛的微调基座。

Mistral

欧洲的旗舰AI实验室。务实、许可清晰、专注于编码。没有DeepSeek或Kimi那样的炒作,但更可靠。鉴于Llama 4在欧盟不可用,它现在尤为重要。

你会实际使用的规格:

  • Mistral Small 3(约240亿参数密集模型)——高效,指令遵循能力强。
  • Mistral Medium / Large 3——顶尖水平的密集模型和MoE旗舰。
  • Codestral / Devstral——代码专用;Devstral为智能体式多文件编码而调优。
  • Magistral(约240亿参数推理模型)——开源推理模型。

许可证: 大部分版本为Apache 2.0。

实际应用场景:

  1. 面向欧洲中型市场的符合GDPR的本地聊天机器人。 随着Llama 4在欧盟不可用,Mistral已成为欧洲企业的默认开源选择。
  2. 可编辑多个文件的智能体编码工具。 Devstral正是为此而生——它是几个不想使用中国模型的、开源的Cursor替代品的背后模型。
  3. 产品功能的函数调用后端。 Mistral模型无需特殊提示即可可靠地输出结构化JSON。常见于“自然语言 → 结构化查询”功能。
  4. 欧盟语言文档处理(法语、葡萄牙语、意大利语、西班牙语),Mistral在这些语言上相比Qwen等中国模型有可衡量的优势。
  5. 在单块GPU上运行的廉价本地编码助手。 Devstral 24B在24GB GPU上运行顺畅,可以处理实际的重构任务。

Google——Gemma系列

Google对标Llama和Qwen的开源模型。采用Apache 2.0许可,尺寸从约10亿到约300亿参数不等,最新一代支持视觉和工具调用。

你会实际使用的规格:

  • Gemma 4 9B——强大的小模型,具备视觉和工具调用能力。
  • Gemma 4 27B——中等尺寸密集模型;指令遵循能力强。

许可证: Apache 2.0。

实际应用场景:

  1. 在普通硬件上运行、支持工具调用的本地智能体。 Gemma 4 9B在16GB GPU上即可可靠地进行函数调用——非常适合桌面助手、浏览器扩展和轻量级自动化。
  2. 无需支付API费用的视觉+文本提取流水线——读取截图、从图表中提取数据、处理扫描表单。
  3. 移动应用、信息亭、工业设备的边缘或设备端部署。 Gemma是为此优化最好的开源模型系列。
  4. 法律上要求使用Apache 2.0许可的应用。 一些采购流程和开源软件发行版特别要求使用OSI批准的许可证。Gemma和Mistral是最清晰的选择。
  5. 在Google Cloud / Vertex AI上的工作负载,Gemma在那里有一流的基础设施支持。

NVIDIA——Nemotron系列

NVIDIA的开源发布,主要展示其训练和推理栈的能力。如果你已经深度投入CUDA/TensorRT/NeMo,值得考虑。

你会实际使用的规格:

  • Nemotron Nano(约4B–9B)——高效的推理模型。
  • Nemotron Cascade / Ultra——更大的、为推理调优的MoE变体。

许可证: 因版本而异;大部分为宽松的开源权重许可。

实际应用场景:

  1. 在H100/H200/B200上榨取每个token/秒的最高吞吐量。 Nemotron与TensorRT-LLM协同设计,在相同的NVIDIA硬件上,其吞吐量明显高于等效的Llama/Qwen模型。
  2. 在NVIDIA NIM微服务上的推理工作负载——如果你的平台团队已标准化使用NIM,那么Nemotron是阻力最小的路径。
  3. 已在使用NVIDIA NeMo的微调团队。 停留在单一工具链中,在运维上价值巨大。

第二部分——模型规模:密集模型 vs MoE,以及各自的实际成本

这一部分是大多数人会搞错的地方。

两个关键的参数数字

每个现代大语言模型都有两个相关的尺寸:

  • 总参数量——模型在磁盘和内存中的大小。决定了所需的硬件容量。
  • 每token激活参数——生成每个token实际参与计算的参数量。决定了吞吐量(token/秒)和能耗。

对于密集模型,这两个数字是相同的。Llama 3.3 70B生成每个token都会使用全部的700亿参数。

对于MoE(混合专家),它们则截然不同。DeepSeek V4-Pro总共有1.6T参数,但每个token只激活49B。模型在内存中很庞大,但生成每个token的计算量只相当于一个490亿参数的模型。这正是MoE的全部意义——用不成比例的计算量换取巨大的模型容量。

实际影响

密集模型MoE
所需内存= 总参数 × 每参数字节数= 总参数 × 每参数字节数(相同——所有专家都必须加载)
每GPU吞吐量与总参数量成正比与激活参数量成正比
擅长行为可预测、易微调、单GPU部署高并发服务、无需匹配顶尖计算量即可获得顶尖能力
不擅长扩展容量超过单GPU能容纳的上限小规模单用户部署(你需要支付全部内存成本,却没有足够的用户来分摊它)

经验法则: 如果你只有少数几个用户,密集模型在每GB显存上的质量更好。如果你要服务大量并发用户,MoE的优势是决定性的,因为你只需支付一次内存成本,就能以激活参数的速度服务大量请求。

内存计算

加载模型所需的大致内存:

内存 ≈ 参数数量 × 每参数字节数 + KV缓存 + 开销

每参数字节数:

精度每参数字节数质量使用时机
FP16 / BF162参考标准数据中心GPU上的生产服务
FP81接近参考标准现代H100/H200上的生产服务
INT81微小损失FP8不可用时的生产服务
INT4 (Q4_K_M, AWQ, GPTQ)0.5小但可接受本地推理的默认选择
INT3 / INT20.25–0.4明显退化在消费级硬件上运行旗舰模型的最后手段

另外需要为KV缓存(随上下文长度增长)和运行时增加10–30%的开销。

特例——原生INT4模型,如Kimi K2.6,是经过量化感知训练的,这意味着INT4推理是预期的部署方式,而不是退而求其次的降级方案。与全精度相比,质量损失几乎为零。

实例计算(当前模型)

模型总参数激活参数FP16内存INT8内存INT4内存
Gemma 4 9B9B (密集)9B~18 GB~9 GB~5 GB
Mistral Small 3 24B24B (密集)24B~48 GB~24 GB~12 GB
Qwen 3.5 27B27B (密集)27B~54 GB~27 GB~14 GB
Qwen 3.6 35B-A3B (MoE)35B3B~70 GB~35 GB~18 GB
Llama 3.3 70B70B (密集)70B~140 GB~70 GB~35 GB
Llama 4 Scout (MoE)109B17B~218 GB~109 GB~55 GB
Qwen 3.5 122B-A10B (MoE)122B10B~244 GB~122 GB~61 GB
DeepSeek V4-Flash (MoE)284B13B~568 GB~284 GB~142 GB
Llama 4 Maverick (MoE)400B17B~800 GB~400 GB~200 GB
Qwen 3.5-397B-A17B (MoE)397B17B~794 GB~397 GB~199 GB
Kimi K2.6 (MoE, 原生INT4)1T32B——~500 GB (原生)
DeepSeek V4-Pro (MoE)1.6T49B~3.2 TB~1.6 TB~800 GB

以上仅为模型权重。在此基础上,为KV缓存和开销增加10–30%。


第三部分——硬件:CUDA和MLX的真实数据

2026年有两条可行路径:NVIDIA CUDA(生产标准)和Apple MLX/Metal(单用户大型模型推理的性价比之选)。AMD正在改进,但尚未成为大语言模型服务的主流生产选择。

第一梯队——单张消费级GPU
标签: Codestral / DevstralCUDADeepSeek R1DeepSeek V4-FlashDeepSeek V4-ProGemma 4Kimi K2Large Language Models (LLM)Llama 4MagistralMistralMLXNemotronQwen 3

SendSendShare
Aplicar.AI

Aplicar.AI

相关故事

The Silicon Showdown: Inside the $200 Billion Battle Reshaping AI

硅谷对决:重塑人工智能未来的2000亿美元大战内幕

by Aplicar.AI
3 5 月, 2026
0

亚马逊、谷歌、苹果和英伟达如何争夺人工智能的灵魂——以及...

OpenAI Goes AWS

OpenAI入驻AWS:微软Azure的AI优势正在缩小

by Aplicar.AI
9 5 月, 2026
0

将近七年来,AI基础设施版图一直保持固定格局。OpenA...

Next Post
Anthropic Claude Training

为什么你应该参加Anthropic Claude培训(以及你实际能从中获得什么)

发表回复 取消回复

您的邮箱地址不会被公开。 必填项已用 * 标注

学习与应用 AI

Aplicar.AI logo

AI 发展迅速。我们帮助你跟上步伐,理解重要的内容,并加以应用——你需要的一切学习和应用 AI 的资源都在这里。

最新文章

  • 为什么你应该参加Anthropic Claude培训(以及你实际能从中获得什么)
  • 2026年开源权重大模型实用指南
  • 硅谷对决:重塑人工智能未来的2000亿美元大战内幕

分类

  • AI 算力
  • AI新闻
  • AI编程
  • Amazon AWS
  • Anthropic
  • Apple
  • DeepSeek
  • Google
  • Microsoft
  • MiniMax
  • Mistral AI
  • Moonshot AI
  • NVIDIA
  • OpenAI
  • Uncategorized
  • 智能体 AI
  • 本地AI
  • 阿里巴巴

标签

AI benchmarks Apple Silicon AWS Bedrock Claude AI Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemini AI Gemma 4 GPT-5.4 GPT-5.5 Kimi K2 Large Language Models (LLM) Llama 4 Magistral Mistral MLX Nemotron Qwen 3 Tensor Processing Unit (TPU) Trainium 教程
  • English
  • Español
  • Português
  • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In

我们使用 Cookie 为您提供最佳的网站体验。 您可以在 中了解我们使用的 Cookie 或将其关闭。

No Result
View All Result
  • 首页
  • AI新闻
  • AI视频
  • AI音频
  • 本地AI
  • 垂直领域AI
  • 智能体 AI
  • AI编程
  • AI工具
  • AI提供商
    • Anthropic
    • OpenAI
    • Amazon AWS
    • NVIDIA
    • Apple
    • Google
    • Meta
    • Microsoft
    • Mistral AI
    • DeepSeek
    • 阿里巴巴
    • MiniMax
  • 开源AI
  • AI术语表
  • 中文 (中国)
    • English
    • Español
    • Português
    • 中文 (中国)

© 2026 Aplicar.AI - 学习与运用 AI

Privacy Overview
学习与应用AI

This website uses cookies so that we can provide you with the best user experience possible. Cookie information is stored in your browser and performs functions such as recognising you when you return to our website and helping our team to understand which sections of the website you find most interesting and useful.

Necessary

Strictly Necessary Cookie should be enabled at all times so that we can save your preferences for cookie settings.

技术支持来自  GDPR Cookie Compliance