Guia Prático de LLMs Open-Weights 2026

🎧 Listen to this article

A Parte 2 detalha a economia do dimensionamento dos LLMs modernos e os custos reais de memória e processamento para executar os modelos atuais.

Dimensionamento: denso vs MoE, e o que cada um custa

Esta é a seção onde a maioria erra.

Os dois números de parâmetros que importam

Cada LLM moderno tem dois tamanhos relevantes:

Parâmetros totais — quão grande o modelo é em disco e em memória. Determina a capacidade de hardware necessária.
Parâmetros ativos por token — quantos parâmetros realmente computam para cada token gerado. Determina o throughput (tokens/seg) e o custo de energia.

Para modelos densos, esses números são iguais. Llama 3.3 70B usa todos os 70B para cada token.

Para MoE (Mixture of Experts), são muito diferentes. DeepSeek V4-Pro tem 1.6T totais mas só 49B ativos por token. O modelo é enorme em memória mas computa como um 49B para cada token gerado. Esse é o ponto inteiro de MoE — capacidade sem compute proporcional.

Implicações práticas

	Denso	MoE
Memória necessária	= parâmetros totais × bytes/parâmetro	= parâmetros totais × bytes/parâmetro (igual — todos os experts precisam estar carregados)
Throughput por GPU	proporcional a parâmetros totais	proporcional a parâmetros ativos
Melhor para	comportamento previsível, fine-tuning fácil, deploy em uma única GPU	servir alto volume, capacidade fronteira sem compute fronteira
Pior para	escalar capacidade além do que cabe numa GPU	deploy de um único usuário em pequena escala (você paga o custo total de memória sem servir usuários suficientes para amortizar)

Regra prática: se você tem um usuário ou poucos, modelos densos te dão melhor qualidade por GB de VRAM. Se está servindo muitos usuários concorrentes, MoE ganha decisivamente porque você paga o custo de memória uma vez e serve muitos requests na velocidade dos parâmetros ativos.

A matemática de memória

Memória aproximada necessária para carregar um modelo:

memória ≈ parâmetros × bytes_por_parâmetro + KV cache + overhead

Bytes por parâmetro:

Precisão	Bytes/parâm	Qualidade	Quando usar
FP16 / BF16	2	Referência	Servir em produção em GPUs de datacenter
FP8	1	Perto da referência	Servir em produção moderno em H100/H200
INT8	1	Perda mínima	Servir em produção quando FP8 não está disponível
INT4 (Q4_K_M, AWQ, GPTQ)	0.5	Pequena mas aceitável	O default para inferência local
INT3 / INT2	0.25–0.4	Degradação perceptível	Último recurso para encaixar um modelo fronteira em hardware de consumo

Some 10–30% de overhead para KV cache (escala com o tamanho do contexto) e runtime.

Caso especial — modelos com quantização nativa como Kimi K2.6 são treinados com quantização (QAT), o que significa que a inferência INT4 é o deploy pretendido, não um fallback degradado. A perda de qualidade vs precisão completa é essencialmente zero.

Exemplos calculados (modelos atuais)

Modelo	Params totais	Params ativos	Memória FP16	Memória INT8	Memória INT4
Gemma 4 9B	9B (denso)	9B	~18 GB	~9 GB	~5 GB
Mistral Small 3 24B	24B (denso)	24B	~48 GB	~24 GB	~12 GB
Qwen 3.5 27B	27B (denso)	27B	~54 GB	~27 GB	~14 GB
Qwen 3.6 35B-A3B (MoE)	35B	3B	~70 GB	~35 GB	~18 GB
Llama 3.3 70B	70B (denso)	70B	~140 GB	~70 GB	~35 GB
Llama 4 Scout (MoE)	109B	17B	~218 GB	~109 GB	~55 GB
Qwen 3.5 122B-A10B (MoE)	122B	10B	~244 GB	~122 GB	~61 GB
DeepSeek V4-Flash (MoE)	284B	13B	~568 GB	~284 GB	~142 GB
Llama 4 Maverick (MoE)	400B	17B	~800 GB	~400 GB	~200 GB
Qwen 3.5-397B-A17B (MoE)	397B	17B	~794 GB	~397 GB	~199 GB
Kimi K2.6 (MoE, INT4 nativo)	1T	32B	—	—	~500 GB (nativo)
DeepSeek V4-Pro (MoE)	1.6T	49B	~3.2 TB	~1.6 TB	~800 GB

Esses são só os pesos. Some 10–30% em cima para KV cache e overhead.

Parte 3 — Hardware: CUDA e MLX, números reais

Dois caminhos viáveis em 2026: NVIDIA CUDA (o padrão de produção) e Apple MLX/Metal (a jogada de valor para inferência de modelos grandes de um único usuário). AMD está melhorando mas ainda não é uma opção mainstream para servir LLMs em produção.

Nota sobre disponibilidade no Brasil e LATAM: GPUs de datacenter (A100, H100, H200, B200) são difíceis e caras de comprar diretamente na região. A realidade prática para a maioria dos times brasileiros e latino-americanos é: alugar na AWS São Paulo (sa-east-1), GCP, Azure Brasil Sul, ou provedores especializados como Lambda Labs, RunPod, Vast.ai. Custos de importação, impostos federais e estaduais (II + IPI + ICMS + PIS/COFINS), e prazos de entrega para hardware on-prem fazem com que a nuvem seja quase sempre mais barata para começar — especialmente no Brasil onde a carga tributária pode quase dobrar o custo final do hardware importado.

Tier 1 — GPU única de consumo (NVIDIA)

Hardware	VRAM	O que roda (INT4)	O que roda (FP16)	Uso realista
RTX 3060 12GB	12 GB	Até ~13B denso, Gemma 4 9B INT4	Até ~7B denso	Hobbyista, aprendizado, máquina de dev para modelos pequenos
RTX 4070 Ti / 5070 16GB	16 GB	Até ~22B denso, Gemma 4 9B FP16	Até ~8B denso	Assistente de código pequeno, agentes Gemma
RTX 4090 24GB	24 GB	Até ~34B denso, Qwen 3.6 35B-A3B	Até ~13B denso	O verdadeiro ponto doce para desenvolvedores solo
RTX 5090 32GB	32 GB	Até ~50B denso, Mistral Small FP8	Até ~16B denso	Mais folga, prova-futuro o tamanho de contexto

Exemplos de throughput (RTX 4090):

Llama 3.3 70B Q4 — ~20–35 t/s
Qwen 3.6 35B-A3B Q4 — ~50–80 t/s (vantagem de MoE — só 3B ativos)
Mistral Small 24B Q4 — ~40–60 t/s

Cenários reais de produção neste tier:

Desenvolvedor solo rodando um assistente de código privado (Devstral 24B ou Qwen 3.6 35B-A3B).
RAG interno de time pequeno sobre documentos da empresa (Llama 3.3 70B Q4).
Protótipo de startup antes de mover para hardware de produção.
Workflows agênticos locais para power users (Gemma 4 9B com tool calling).

Tier 2 — Workstation multi-GPU de consumo

Hardware	VRAM	O que roda	Uso realista
2× RTX 4090 (paralelismo de tensores em vLLM)	48 GB	Llama 3.3 70B FP8, Qwen 3.6 35B-A3B FP16	Servir em produção para time pequeno, experimentos de fine-tuning
2× RTX 5090	64 GB	70B em FP16, Llama 4 Scout em INT4	Servir local sério, deploy MoE de tier médio
4× RTX 4090 / 5090	96–128 GB	Llama 4 Scout em FP8/FP16, Qwen 3.5 122B-A10B em INT4	Produção mono-tenant para ferramenta interna

Aviso: GPUs de consumo não são projetadas para carga sustentada 24/7. Refrigeração e energia viram problemas reais de engenharia. Para qualquer coisa além de uma única workstation, considere GPUs de datacenter.

Cenários reais de produção:

Tooling de IA interno para SaaS médio de ~50–200 funcionários.
Fine-tuning de um modelo 70B com LoRA / QLoRA.
Servidor de inferência interno para um time de engenharia de 5–20 pessoas.

Tier 3 — Apple Silicon (MLX / Metal)

Onde a Apple é genuinamente competitiva — e onde a maioria entende errado o trade-off.

A vantagem: memória unificada. Um Mac Studio com 256GB de memória unificada consegue sustentar modelos que de outra forma exigiriam 4–8× H100s — a uma fração do preço (~$10K USD para o Mac vs $80K+ USD para o equivalente em GPU). Importante para o Brasil e LATAM onde importar Macs é mais barato e rápido que importar GPUs de datacenter NVIDIA — Macs entram pelo regime tradicional de importação de eletrônicos enquanto GPUs de datacenter passam por classificações fiscais piores.

A pegadinha: menor throughput por request. Os cores de GPU da Apple têm FLOPS bruto menor que NVIDIA de datacenter, e o stack de software de inferência (MLX, llama.cpp Metal backend) ainda não iguala as otimizações do CUDA (variantes de FlashAttention, aceleração FP8, batching avançado).

Hardware	Memória unificada	O que roda confortável (INT4)	Uso realista
MacBook Pro M4 Max 36GB	36 GB	Até ~50B denso, Qwen 3.6 35B-A3B	Assistente de código de desenvolvedor solo
MacBook Pro M4 Max 64GB	64 GB	Llama 3.3 70B Q4, Qwen 3.5 122B-A10B Q4	Power user, demos, avaliação de modelos
Mac Studio M3 Ultra 96GB	96 GB	Llama 3.3 70B FP8, Llama 4 Scout INT4	Single-user pesado, assistente compartilhado em escritório pequeno
Mac Studio M3 Ultra 192GB	192 GB	Llama 4 Scout FP8, Llama 4 Maverick INT4, DeepSeek V4-Flash INT4	Inferência de MoE fronteira para um único usuário
Mac Studio M4 Ultra 256–512GB	256+ GB	DeepSeek V4-Flash FP8, Kimi K2.6 INT4 nativo, V4-Pro com quantização forte	Inferência fronteira local séria; a máquina de manchete “rodando modelos de 1T localmente”

Exemplos de throughput (Mac Studio M3 Ultra, benchmarks reais):

Llama 3.3 70B Q4 — ~10–15 t/s (vs 20–35 na 4090, mas o Mac monta modelos muito maiores)
Qwen 3.6 35B-A3B Q4 — ~25–40 t/s; MLX roda aproximadamente 2× mais rápido que Ollama no mesmo modelo — vale a pena saber
Kimi K2.6 INT4 nativo — t/s de um dígito mas roda, que é o ponto
DeepSeek V4-Flash INT4 — ~5–10 t/s em máquinas de 192GB+

MLX vs llama.cpp em Apple Silicon: MLX (o framework nativo da Apple) dá o melhor desempenho para muitos modelos — até 2× sobre llama.cpp Metal em Qwen 3.6 35B-A3B em benchmarks publicados. llama.cpp tem suporte mais amplo de modelos. A maioria das pessoas acaba usando os dois dependendo do modelo.

Cenários reais de produção:

Desenvolvedor solo ou time pequeno rodando Llama 3.3 70B ou Qwen 3.6 35B-A3B localmente para trabalho diário de código — a melhor relação preço/desempenho para esse caso de uso em 2026.
Pesquisador avaliando modelos abertos fronteira sem acesso a datacenter.
Consultoria pequena dando demos in loco de modelos grandes para clientes que exigem ver o modelo rodar fora da nuvem.
Power user focado em privacidade rodando um modelo fronteira completamente offline.
O Mac Studio de 256GB+ especificamente para “demonstrar Kimi K2.6 ou DeepSeek V4-Flash em uma única máquina.”

Para o que MLX NÃO serve: servir alta concorrência. Se você precisa servir mais de ~5 usuários concorrentes, NVIDIA ganha decisivamente.

Tier 4 — GPU única de datacenter

Hardware	VRAM	O que roda (FP16)	Características de throughput
A100 80GB	80 GB	Llama 3.3 70B FP16, Mistral Large denso, Qwen 3.6 35B-A3B com contexto enorme	Cavalo de batalha confiável; ~2× mais lento que H100 mas mais barato
H100 80GB	80 GB	Igual à A100 + suporte FP8 nativo; Llama 4 Scout INT4	Padrão de produção para modelos classe 70B
H200 141GB	141 GB	Llama 4 Scout FP16, Qwen 3.5 122B-A10B FP16, contextos muito longos	Melhor GPU única para MoE classe 100B
B200 (Blackwell)	192 GB	DeepSeek V4-Flash INT4, modelos MoE maiores	Tier topo atual; salto grande de throughput sobre H100

Cenários reais de produção:

Servir em produção para SaaS com centenas a milhares de usuários (vLLM + Llama 70B em H100).
Pipeline de processamento em batch (extrair dados estruturados de milhões de documentos).
Plataforma de IA interna corporativa servindo milhares de funcionários.
Fine-tuning de modelos 7B–13B em precisão completa; LoRA em 70B.

Custo realista no Brasil: Na nuvem — $2–5 USD/hora dependendo do provedor. AWS São Paulo tende a custar 20–30% mais que us-east. Para workloads sensíveis à latência ou que processam dados de cidadãos brasileiros, vale a região local mesmo com o premium. On-prem H100 — ~$25–40K USD por GPU mais o servidor, sem contar impostos de importação que podem chegar a ~80–100% do valor declarado dependendo da classificação fiscal.

Tier 5 — Cluster multi-GPU de datacenter

Configuração	VRAM total	O que roda	Caso de uso
4× H100 / 2× H200	320–280 GB	Kimi K2.6 INT4 nativo, DeepSeek V4-Flash FP8, Llama 4 Maverick INT4	A nova linha base de “modelo aberto fronteira” em 2026
8× H100 (um nó DGX)	640 GB	Llama 4 Maverick FP8, DeepSeek V4-Flash FP16, Kimi K2.6 FP8	Configuração padrão para “modelo aberto fronteira em produção”
8× H200	1.1 TB	DeepSeek V4-Pro INT8, Kimi K2.6 FP16	Servir MoE fronteira com qualidade máxima
16× H100+ (multi-nó, InfiniBand)	1.3 TB+	DeepSeek V4-Pro FP16, servir fronteira com contexto muito longo	Servir hiperescala, provedores de modelos

Cenários reais de produção:

Auto-hospedar DeepSeek V4 para uma empresa regulada (banco, hospital, governo).
Startup servindo um modelo aberto fronteira como seu próprio produto API.
Plataforma de IA multi-tenant com milhares de usuários concorrentes.
Laboratório de pesquisa rodando inferência fronteira + experimentos de fine-tuning.

Parte 4 — Matriz rápida de decisão

Se a sua situação é…	Escolha este modelo	Neste hardware
Dev solo, quer assistente de código	Qwen 3.6 35B-A3B ou Devstral 24B	RTX 4090 / Mac M4 Max 36GB+
Time pequeno, RAG interno sobre documentos	Llama 3.3 70B (Q4)	RTX 4090 / Mac Studio 96GB / H100 na nuvem
SaaS médio, precisa auto-hospedar features de IA	Llama 3.3 70B ou Qwen 3.6 35B-A3B	1× H100 com vLLM
Empresa com requisitos de soberania de dados (LGPD)	Mistral Small / Medium ou Qwen 3.6 35B-A3B	1× H100 ou 2× RTX 5090, datacenter local
Produto multilíngue (BR + LATAM + Ásia)	Família Qwen 3.5 / 3.6	Dimensionado ao seu tráfego
Qualidade open fronteira, indústria regulada (banco/saúde/governo)	DeepSeek V4-Pro	Cluster 8× H200
Agente de programação fronteira auto-hospedado	Kimi K2.6 (INT4 nativo)	4× H100 ou 2× H200
Produto open de programação agêntica (startup)	Kimi K2.6 ou DeepSeek V4-Flash	Single H100 DGX ou provedor hosted
Pesquisa de raciocínio/matemática	DeepSeek R1 ou V4-Pro	8× H100 / H200
Agente local com tool calling com orçamento apertado	Gemma 4 9B	RTX 4070 Ti / Mac M3 Pro
Visão + texto em hardware de consumo	Gemma 4 9B (visão) ou Llama 4 Scout	RTX 4090 / Mac M4 Max
Modelo fronteira em uma única máquina para uso pessoal	Kimi K2.6 (INT4 nativo) ou DeepSeek V4-Flash	Mac Studio M4 Ultra 256GB+
Espremer máximo throughput de hardware NVIDIA	Variantes Nemotron	H100/H200/B200 com TensorRT-LLM
Contexto longo (>1M tokens)	Llama 4 Scout (10M) ou DeepSeek V4 (1M)	Dimensionado ao modelo

Parte 5 — Três padrões que vale internalizar

1. MoE é para servir, denso é para caber. Rodando um usuário em uma máquina? Modelos densos te dão mais qualidade por GB de memória. Servindo muitos usuários? MoE ganha porque a quantidade de parâmetros ativos define seu custo por token enquanto a quantidade de parâmetros totais define sua conta única de memória.

2. O Mac Studio é real, mas só para inferência de modelos grandes com um único usuário. Um Mac Studio de 256GB roda modelos que custariam $80K+ USD em hardware NVIDIA, em velocidades de um único usuário. Genuinamente útil para desenvolvedores solo, pesquisadores, consultorias pequenas. Especialmente relevante no Brasil e LATAM onde o custo e dificuldade de importar GPUs de datacenter NVIDIA fazem do Mac uma alternativa prática séria. Não é plataforma para servir em produção — para isso, NVIDIA ganha em throughput, batching e maturidade de software. Use MLX em vez de llama.cpp quando ambos suportarem o modelo — speedups mensuráveis de 2× em 2026.

3. A quantização nativa muda a matemática do deploy. Kimi K2.6 sai em INT4 nativo. DeepSeek V4 sai em mistura FP8 + FP4. Isso é uma mudança importante em relação ao mundo antigo onde quantização sempre era um trade-off de qualidade-vs-caber. Para modelos com quantização nativa, INT4 é o deploy pretendido — você não está abrindo mão de nada. Espere mais modelos seguindo esse padrão ao longo de 2026.

Reflexão final

Pesos abertos em 2026 cobrem todo o espectro de qualidade. Não existe mais capacidade fronteira disponível só por trás de uma API fechada — DeepSeek V4-Pro, Kimi K2.6, e Qwen 3.6 Max estão todos a uma distância de golpe de GPT-5 e Claude Opus nos benchmarks que importam para trabalho de produção. A pergunta real de engenharia já não é “aberto vs fechado” — é “qual modelo aberto, em qual quantização, em qual hardware, para qual workload.” Os números deste guia devem te dar o suficiente para tomar essa decisão sem chutar.

Para o Brasil e LATAM especificamente, o caso de auto-hospedar modelos open-weights é ainda mais forte que em outras regiões: regulamentação de soberania de dados em cada país (LGPD no Brasil, Ley 1581 na Colômbia, LFPDPPP no México, Ley 25.326 na Argentina), volatilidade cambial que torna imprevisíveis os custos em USD das APIs (especialmente sentida no Brasil e Argentina), e latência a partir de datacenters norte-americanos que importa para experiências de usuário sensíveis. A estratégia vencedora típica é: começar em API para validar produto, mover o volume sustentado para auto-hospedagem assim que o gasto mensal justificar o investimento — e quando o volume justificar on-prem, considerar seriamente a economia tributária de processar tudo localmente em vez de pagar APIs em dólar.

O ritmo vai continuar. Espere outra onda grande de lançamentos para o final do Q3 2026 — provavelmente DeepSeek V4.x, Qwen 4 e um refresh de Llama 4.x. Os padrões arquiteturais — economia de MoE, trade-offs de quantização, MLX vs CUDA, matriz de dimensionamento-para-hardware — não vão mudar. Construa seu sistema em torno dos padrões, não dos nomes dos modelos.

Tags: Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemma 4 Grandes Modelos de Linguagem (LLM)Kimi K2 Llama 4 Magistral Mistral MLX Nemotron Qwen

Guia Prático de LLMs Open-Weights 2026 – Parte 2

Anthropic é forçada a desligar Fable 5 e Mythos 5 após ordem de exportação dos EUA

O que é Programação Agêntica? Entenda Como a IA Escreve, Testa, Depura e Entrega Software

Guia Prático de LLMs Open-Weights 2026 – Parte 2

Equipe Editorial da Aplicar.AI

Related Stories

Pare de Pagar Caro: Como Reduzir os Custos de IA para Programação com Claude, Qwen e DeepSeek

Qwen: a IA chinesa de código aberto que tá comendo o mercado de LLMs

AnythingLLM na prática: como instalar, usar e tirar proveito da IA privada

Rodando os modelos abertos Nemotron da NVIDIA no seu Mac com MLX

Anthropic lançou a primeira certificação oficial de Claude. Vale a pena para o dev brasileiro?

Deixe um comentário Cancelar resposta

Aprender & Aplicar IA

Postagens Recentes

Categorias

Welcome Back!

Retrieve your password