Guia Prático de LLMs Open-Weights 2026

🎧 Listen to this article

Como escolher, dimensionar e fazer deploy de modelos de pesos abertos em produção: qual modelo para qual tarefa, de qual tamanho, e em qual hardware — cobrindo CUDA e MLX.

Atualizado em maio de 2026 — reflete a onda de lançamentos de abril 2026 (DeepSeek V4, Qwen 3.6, Kimi K2.6).

Por que só modelos open-weights

APIs fechadas são fáceis. Você paga a conta, recebe a resposta. A engenharia interessante — e onde está a maior parte dos mal-entendidos — está do lado dos pesos abertos, onde você realmente precisa pensar em quantidade de parâmetros, arquitetura MoE, quantização, VRAM, e se o seu Mac Studio realmente roda aquele modelo de 1.6T que alguém tuitou.

Este guia cobre só modelos de pesos abertos. Todos os modelos descritos abaixo podem ser baixados, rodados no seu próprio hardware e enviados dentro de um produto sem pagar por token. A contrapartida é que você precisa entender o hardware. É disso que trata a maior parte deste guia.

Uma nota sobre atualidade: a fronteira de open-weights se move rápido — três dos modelos mais importantes deste guia (DeepSeek V4, Qwen 3.6, Kimi K2.6) saíram dentro de uma única janela de 30 dias em abril 2026. Os números de versão específicos vão continuar mudando. Os padrões arquiteturais e o dimensionamento de hardware não.

Parte 1 — Os modelos open-weights que importam em 2026

Existem aproximadamente 7 famílias de modelos que valem a pena conhecer para trabalho de produção real. Qualquer coisa que não esteja nesta lista é um artefato de pesquisa ou uma variante menor de uma destas.

DeepSeek — Família V4 (lançada em 24 de abril de 2026)

DeepSeek V4 é a fronteira atual de open-weights. Duas variantes lançadas simultaneamente, ambas sob licença MIT, ambas com contexto de 1M de tokens. A mudança arquitetural principal é a atenção híbrida CSA + HCA (Compressed Sparse Attention + Heavily Compressed Attention), que reduz os FLOPs de inferência para ~27% do V3.2 e a ocupação de KV cache para ~10% em contextos de 1M.

Tamanhos que você realmente usa:

DeepSeek V4-Pro (MoE, 49B ativos / 1.6T totais) — classe fronteira, compete com Claude Opus e GPT-5 em código e raciocínio.
DeepSeek V4-Flash (MoE, 13B ativos / 284B totais) — rápido, eficiente, executável em uma configuração multi-GPU que a maioria dos times consegue bancar.
DeepSeek R1 (ainda mantido, MoE 37B/671B) — predecessor afinado para raciocínio; ainda relevante se você já está deployado nele ou quer uma opção de raciocínio fronteira menor.

Licença: MIT. Tão limpa quanto pode ser.

Casos de uso reais:

“GPT-5 privado” auto-hospedado para uma empresa regulada — um banco grande (Itaú, Bradesco, Santander Brasil), uma operadora de saúde sujeita à LGPD, uma fintech sob regulação do BACEN, ou um órgão público sujeito a soberania de dados. V4-Pro em 8× H200 num datacenter privado é a resposta padrão em 2026 quando você não pode mandar dados para APIs fechadas mas precisa de qualidade fronteira.
Pipeline de revisão de código em alto volume. V4-Flash processa pull requests, code review, sugestões de refatoração, ferramentas de migração automatizada. Com 13B parâmetros ativos, o throughput por GPU é excelente e o custo por token é desprezível depois do hardware.
Análise de documentos longos em escalas que há seis meses só eram possíveis via API. O contexto de 1M do V4 com o novo mecanismo de atenção realmente funciona em ranges longos (o KV cache não explode). Útil para due diligence jurídica, revisão de literatura científica, análise de bases de código completas.
Inferência barata via API da DeepSeek se você não quer auto-hospedar. V4-Flash a $0.14/M de tokens de entrada é ~18× mais barato que o flagship do GPT-5 e bom o suficiente para a maior parte do trabalho de produção.
Base fronteira para fine-tunes proprietários. A licença MIT torna o fine-tuning comercial juridicamente limpo — importante para SaaS verticais que querem construir um modelo defensável em cima de uma base aberta.

Realidade de hardware: V4-Pro em precisão completa precisa de um cluster de 8× H100/H200. V4-Flash entra confortável em 2–4× H100 em FP8, ou um Mac Studio top de linha com quantização forte para inferência de um único usuário. A maioria dos times vai usar V4-Pro via API e auto-hospedar V4-Flash se precisar de controle.

Moonshot — Kimi K2.6 (lançado em abril 2026)

Kimi K2.6 é o modelo open-weights mais forte para programação em meados de 2026 — topo de cada benchmark relevante para tarefas de programação autônoma de longo horizonte. INT4 QAT nativo (treinamento consciente de quantização), o que significa que ele é especificamente construído para rodar quantizado sem perda de qualidade. Inclui capacidade de “agent swarm” — pode orquestrar até 300 sub-agentes em paralelo.

Tamanhos que você realmente usa:

Kimi K2.6 (MoE, 32B ativos / 1T totais) — INT4 nativo, capacidade de visão, contexto de 256K.
Kimi K2.5 (predecessor) — ainda amplamente deployado, mais barato de hospedar.

Licença: MIT Modificada (livre para quase todo uso comercial; atribuição obrigatória acima de 100M MAU ou $20M de receita mensal).

Casos de uso reais:

Produtos de programação agêntica em produção (alternativas open-source a Cursor / Devin). K2.6 é o modelo por trás de vários deles em 2026. Economia competitiva contra APIs fechadas para startups de IA com aporte de VC.
Code review e análise de PR auto-hospedado sobre bases de código corporativas. A quantização INT4 nativa é crítica aqui — você obtém qualidade de programação fronteira com materialmente menos hardware do que o V4-Pro exige.
Tarefas autônomas de longo horizonte — a Moonshot demonstrou K2.6 executando 4.000+ chamadas a ferramentas ao longo de 12+ horas para completar um projeto real de engenharia. Útil para trabalho agêntico noturno em batch (migrações de bases de código, refactors em larga escala, geração de documentação).
Bases de código poliglotas (Rust + Go + Python + frontend + DevOps). K2.6 generaliza entre linguagens melhor que a maioria dos modelos especializados em código, que tendem a ser muito focados em Python.
Apps onde fazer deploy de capacidade fronteira de programação no seu próprio hardware é vantagem competitiva — software de defesa, sistemas de trading financeiro, firmware de dispositivos médicos. O código em si é a propriedade intelectual e não pode sair do prédio.

Realidade de hardware: O INT4 nativo significa que K2.6 é genuinamente deployável em 4× H100 ou 2× H200, o que é muito mais acessível que V4-Pro. Quantização forte roda num Mac Studio de 256GB para inferência de um único usuário.

Alibaba — Família Qwen 3.5 / 3.6

A família aberta mais completa. Cobre cada classe de tamanho desde sub-1B até flagships MoE de 1T. Qwen 3.5 (fevereiro 2026) foi o lançamento geracional principal; Qwen 3.6 (março-abril 2026) é o refresh focado em programação agêntica em cima. Ambas as linhas estão ativamente mantidas.

Tamanhos que você realmente usa (mix Qwen 3.5 / 3.6):

Qwen 3.5 4B / 9B / 27B (denso) — todoterrenos fortes. O 9B especificamente faz 81.7 no GPQA Diamond, sem precedentes para modelos sub-30B.
Qwen 3.6 27B (denso) — refresh do 27B com programação agêntica melhor.
Qwen 3.6 35B-A3B (MoE, 3B ativos / 35B totais) — o ponto doce de throughput de todo o ecossistema open em 2026. Qualidade de 35B em velocidade de classe 3B.
Qwen 3.5 122B-A10B (MoE, 10B ativos / 122B totais) — roda num Mac de 64GB.
Qwen 3.5-397B-A17B flagship (MoE, 17B ativos / 397B totais) — classe fronteira.
Qwen 3.6-Max-Preview — atualmente só API, não open-weight; mencionado só porque as derivadas open-weight do 3.6 fluem dele.

Licença: Apache 2.0 para tamanhos até ~30B; customizada (utilizável comercialmente) para os flagships maiores.

Casos de uso reais:

Suporte multilíngue para produtos globais. Qwen lida com mandarim, japonês, coreano, indonésio, vietnamita, hindi, árabe, espanhol e português brasileiro em qualidade que Llama não consegue igualar. Para produtos brasileiros expandindo para LATAM (espanhol) e Ásia, Qwen é a escolha padrão.
Backend de chat de alto throughput com orçamento de latência apertado. Qwen 3.6 35B-A3B serve 3–5× mais usuários concorrentes por GPU que alternativas densas de 30B porque só 3B parâmetros estão ativos por token. Melhor relação preço/desempenho para servir em produção em 2026.
Programação agêntica local em Apple Silicon. Qwen 3.6 35B-A3B roda confortável num MacBook Pro M-series de 64GB via MLX. Essa combinação (MLX + 35B-A3B MoE) está virando o setup padrão de desenvolvedor solo.
Deploy on-prem para empresas com requisitos de soberania de dados — pode rodar completamente desconectado da internet, atendendo a LGPD no Brasil, e às leis equivalentes no resto da LATAM (Ley 1581 na Colômbia, Ley 25.326 na Argentina, LFPDPPP no México).
Base de fine-tuning para SaaS verticais. Os tamanhos Qwen 3.5 4B–14B são as bases de fine-tuning mais custo-eficientes do ecossistema — pequenas o suficiente para treinar numa única GPU, capazes o suficiente para mandar para produção.
Deploy em edge. Os tamanhos Qwen 3.5 0.8B e 2B rodam em celulares e dispositivos IoT — útil para funcionalidades de IA offline em apps móveis.

Meta — Família Llama 4

A linha open mais suportada do mundo. Cada framework de inferência, biblioteca de fine-tuning e integração de ferramentas suporta Llama primeiro. Llama 4 introduziu MoE (Scout + Maverick) e multimodalidade nativa. Llama 3.3 70B continua sendo o cavalo de batalha denso; Llama 4 Behemoth (288B ativos / ~2T totais) foi anunciado como modelo professor mas não foi liberado como open-weights.

Tamanhos que você realmente usa:

Llama 3.3 70B (denso) — ainda o 70B aberto mais deployado em produção.
Llama 4 Scout (MoE, 17B ativos / 109B totais, 16 experts) — entra numa única H100 com quantização INT4, contexto de 10M tokens.
Llama 4 Maverick (MoE, 17B ativos / 400B totais, 128 experts) — entra num único host H100 DGX (8× H100), contexto 1M, multimodal nativo.

Licença: Llama 4 Community License. Permissiva para a maioria dos usuários; exige licença especial acima de 700M MAU. Não disponível para empresas domiciliadas na UE no início de 2026 — vale verificar a licença atualizada antes de qualquer deploy cross-border a partir do Brasil para clientes europeus.

Casos de uso reais:

Assistente interno de empresa treinado sobre seu wiki/documentação. Um fine-tune com LoRA de Llama 3.3 70B sobre documentação interna, servido via vLLM em uma única H100, dá a cada funcionário um equivalente privado do ChatGPT. O padrão de deploy de Llama mais comum em empresas de médio e grande porte no Brasil.
RAG multimodal sobre bibliotecas de documentos (PDFs com diagramas, formulários escaneados, gráficos). A compreensão nativa de imagens do Llama 4 Scout + contexto de 10M lida com isso num único modelo. Caso típico no Brasil: arquivo histórico de atas notariais, prontuários médicos digitalizados, processos judiciais digitalizados pelo PJe.
Workflows de documentos longos — análise de bases de código completas, processamento de documentos do tamanho de um livro, memória conversacional de múltiplas sessões. O contexto de 10M do Scout é genuinamente útil aqui.
SaaS multi-tenant onde você precisa auto-hospedar. Llama é a opção aberta mais segura porque cada dependência que você precisaria (vLLM, TGI, Ollama, llama.cpp, MLX) suporta desde o dia zero.
Times de fine-tuning que precisam de máximo suporte de bibliotecas. Llama é a base de fine-tuning mais documentada e suportada do ecossistema.

Mistral

O laboratório francês. Pragmático, bem licenciado, focado em código. Menos hype que DeepSeek ou Kimi, mais confiabilidade.

Tamanhos que você realmente usa:

Mistral Small 3 (~24B denso) — eficiente, boa obediência a instruções.
Mistral Medium / Large 3 — flagships densos e MoE classe fronteira.
Codestral / Devstral — especializados em código; Devstral é afinado para programação agêntica multi-arquivo.
Magistral (~24B raciocínio) — modelo aberto de raciocínio.

Licença: Apache 2.0 para a maioria dos lançamentos.

Casos de uso reais:

Chatbot on-prem cumprindo regulamentação de proteção de dados — particularmente útil quando o cliente exige modelo de origem não-chinesa (alguns setores em defesa, banco e governo têm essa exigência explicitamente).
Ferramenta de programação agêntica que edita múltiplos arquivos. Devstral foi feito especificamente para isso — é o modelo por trás de várias alternativas open-source ao Cursor.
Backend de function-calling para features de produto. Os modelos Mistral são confiáveis para saída estruturada em JSON sem precisar de prompting exótico. Comum em features tipo “linguagem natural → consulta estruturada”.
Processamento de documentos em português, espanhol, francês onde Mistral tem uma vantagem mensurável sobre Qwen em variantes europeias e algumas variantes latinas.
Assistente de programação local barato em uma única GPU. Devstral 24B numa GPU de 24GB roda confortável e lida com tarefas reais de refatoração.

Google — Família Gemma

A resposta aberta da Google ao Llama e Qwen. Apache 2.0, tamanhos de ~1B a ~30B, com visão e tool calling na última geração.

Tamanhos que você realmente usa:

Gemma 4 9B — modelo pequeno forte com visão + tool calling.
Gemma 4 27B — denso de tamanho médio; boa obediência a instruções.

Licença: Apache 2.0.

Casos de uso reais:

Agente local com tool calling em hardware modesto. Gemma 4 9B numa GPU de 16GB lida com function calling de forma confiável — bom para assistentes de desktop, extensões de browser, automação leve.
Pipeline de extração de visão + texto sem pagar preços de API — ler screenshots, extrair dados de gráficos, processar formulários escaneados (usos típicos: digitalização de arquivos, automação de back-office em seguradoras, processamento de notas fiscais).
Deploy em edge ou on-device para apps móveis, totens, dispositivos industriais. Gemma é a família aberta mais otimizada para isso.
Apps onde Apache 2.0 é juridicamente exigida. Alguns processos de licitação pública e distribuições OSS exigem especificamente uma licença aprovada pela OSI. Gemma e Mistral são as opções mais limpas.
Workloads em Google Cloud / Vertex AI onde Gemma tem suporte de infraestrutura de primeira classe.

NVIDIA — Família Nemotron

Os lançamentos abertos da NVIDIA, principalmente para mostrar o que o stack de treinamento e inferência deles consegue fazer. Vale considerar se você já está profundamente investido em CUDA/TensorRT/NeMo.

Tamanhos que você realmente usa:

Nemotron Nano (~4B–9B) — raciocínio eficiente.
Nemotron Cascade / Ultra — variantes MoE maiores afinadas para raciocínio.

Licença: Varia por lançamento; majoritariamente open-weight permissiva.

Casos de uso reais:

Inferência em produção espremendo cada token/seg de H100/H200/B200. Nemotron é codesenhado com TensorRT-LLM e dá throughput mensuravelmente melhor que Llama/Qwen equivalente no mesmo hardware NVIDIA.
Workloads de raciocínio em NVIDIA NIM microservices — se seu time de plataforma padronizou em NIM, Nemotron é o caminho de menor resistência.
Times de fine-tuning que já usam NVIDIA NeMo. Ficar dentro de um único toolchain vale muito operacionalmente.

Parte 2 — Dimensionamento: denso vs MoE, e o que cada um custa

Esta é a seção onde a maioria erra.

Os dois números de parâmetros que importam

Cada LLM moderno tem dois tamanhos relevantes:

Parâmetros totais — quão grande o modelo é em disco e em memória. Determina a capacidade de hardware necessária.
Parâmetros ativos por token — quantos parâmetros realmente computam para cada token gerado. Determina o throughput (tokens/seg) e o custo de energia.

Para modelos densos, esses números são iguais. Llama 3.3 70B usa todos os 70B para cada token.

Para MoE (Mixture of Experts), são muito diferentes. DeepSeek V4-Pro tem 1.6T totais mas só 49B ativos por token. O modelo é enorme em memória mas computa como um 49B para cada token gerado. Esse é o ponto inteiro de MoE — capacidade sem compute proporcional.

Implicações práticas

	Denso	MoE
Memória necessária	= parâmetros totais × bytes/parâmetro	= parâmetros totais × bytes/parâmetro (igual — todos os experts precisam estar carregados)
Throughput por GPU	proporcional a parâmetros totais	proporcional a parâmetros ativos
Melhor para	comportamento previsível, fine-tuning fácil, deploy em uma única GPU	servir alto volume, capacidade fronteira sem compute fronteira
Pior para	escalar capacidade além do que cabe numa GPU	deploy de um único usuário em pequena escala (você paga o custo total de memória sem servir usuários suficientes para amortizar)

Regra prática: se você tem um usuário ou poucos, modelos densos te dão melhor qualidade por GB de VRAM. Se está servindo muitos usuários concorrentes, MoE ganha decisivamente porque você paga o custo de memória uma vez e serve muitos requests na velocidade dos parâmetros ativos.

A matemática de memória

Memória aproximada necessária para carregar um modelo:

memória ≈ parâmetros × bytes_por_parâmetro + KV cache + overhead

Bytes por parâmetro:

Precisão	Bytes/parâm	Qualidade	Quando usar
FP16 / BF16	2	Referência	Servir em produção em GPUs de datacenter
FP8	1	Perto da referência	Servir em produção moderno em H100/H200
INT8	1	Perda mínima	Servir em produção quando FP8 não está disponível
INT4 (Q4_K_M, AWQ, GPTQ)	0.5	Pequena mas aceitável	O default para inferência local
INT3 / INT2	0.25–0.4	Degradação perceptível	Último recurso para encaixar um modelo fronteira em hardware de consumo

Some 10–30% de overhead para KV cache (escala com o tamanho do contexto) e runtime.

Caso especial — modelos com quantização nativa como Kimi K2.6 são treinados com quantização (QAT), o que significa que a inferência INT4 é o deploy pretendido, não um fallback degradado. A perda de qualidade vs precisão completa é essencialmente zero.

Exemplos calculados (modelos atuais)

Modelo	Params totais	Params ativos	Memória FP16	Memória INT8	Memória INT4
Gemma 4 9B	9B (denso)	9B	~18 GB	~9 GB	~5 GB
Mistral Small 3 24B	24B (denso)	24B	~48 GB	~24 GB	~12 GB
Qwen 3.5 27B	27B (denso)	27B	~54 GB	~27 GB	~14 GB
Qwen 3.6 35B-A3B (MoE)	35B	3B	~70 GB	~35 GB	~18 GB
Llama 3.3 70B	70B (denso)	70B	~140 GB	~70 GB	~35 GB
Llama 4 Scout (MoE)	109B	17B	~218 GB	~109 GB	~55 GB
Qwen 3.5 122B-A10B (MoE)	122B	10B	~244 GB	~122 GB	~61 GB
DeepSeek V4-Flash (MoE)	284B	13B	~568 GB	~284 GB	~142 GB
Llama 4 Maverick (MoE)	400B	17B	~800 GB	~400 GB	~200 GB
Qwen 3.5-397B-A17B (MoE)	397B	17B	~794 GB	~397 GB	~199 GB
Kimi K2.6 (MoE, INT4 nativo)	1T	32B	—	—	~500 GB (nativo)
DeepSeek V4-Pro (MoE)	1.6T	49B	~3.2 TB	~1.6 TB	~800 GB

Esses são só os pesos. Some 10–30% em cima para KV cache e overhead.

Parte 3 — Hardware: CUDA e MLX, números reais

Dois caminhos viáveis em 2026: NVIDIA CUDA (o padrão de produção) e Apple MLX/Metal (a jogada de valor para inferência de modelos grandes de um único usuário). AMD está melhorando mas ainda não é uma opção mainstream para servir LLMs em produção.

Nota sobre disponibilidade no Brasil e LATAM: GPUs de datacenter (A100, H100, H200, B200) são difíceis e caras de comprar diretamente na região. A realidade prática para a maioria dos times brasileiros e latino-americanos é: alugar na AWS São Paulo (sa-east-1), GCP, Azure Brasil Sul, ou provedores especializados como Lambda Labs, RunPod, Vast.ai. Custos de importação, impostos federais e estaduais (II + IPI + ICMS + PIS/COFINS), e prazos de entrega para hardware on-prem fazem com que a nuvem seja quase sempre mais barata para começar — especialmente no Brasil onde a carga tributária pode quase dobrar o custo final do hardware importado.

Tier 1 — GPU única de consumo (NVIDIA)

Hardware	VRAM	O que roda (INT4)	O que roda (FP16)	Uso realista
RTX 3060 12GB	12 GB	Até ~13B denso, Gemma 4 9B INT4	Até ~7B denso	Hobbyista, aprendizado, máquina de dev para modelos pequenos
RTX 4070 Ti / 5070 16GB	16 GB	Até ~22B denso, Gemma 4 9B FP16	Até ~8B denso	Assistente de código pequeno, agentes Gemma
RTX 4090 24GB	24 GB	Até ~34B denso, Qwen 3.6 35B-A3B	Até ~13B denso	O verdadeiro ponto doce para desenvolvedores solo
RTX 5090 32GB	32 GB	Até ~50B denso, Mistral Small FP8	Até ~16B denso	Mais folga, prova-futuro o tamanho de contexto

Exemplos de throughput (RTX 4090):

Llama 3.3 70B Q4 — ~20–35 t/s
Qwen 3.6 35B-A3B Q4 — ~50–80 t/s (vantagem de MoE — só 3B ativos)
Mistral Small 24B Q4 — ~40–60 t/s

Cenários reais de produção neste tier:

Desenvolvedor solo rodando um assistente de código privado (Devstral 24B ou Qwen 3.6 35B-A3B).
RAG interno de time pequeno sobre documentos da empresa (Llama 3.3 70B Q4).
Protótipo de startup antes de mover para hardware de produção.
Workflows agênticos locais para power users (Gemma 4 9B com tool calling).

Tier 2 — Workstation multi-GPU de consumo

Hardware	VRAM	O que roda	Uso realista
2× RTX 4090 (paralelismo de tensores em vLLM)	48 GB	Llama 3.3 70B FP8, Qwen 3.6 35B-A3B FP16	Servir em produção para time pequeno, experimentos de fine-tuning
2× RTX 5090	64 GB	70B em FP16, Llama 4 Scout em INT4	Servir local sério, deploy MoE de tier médio
4× RTX 4090 / 5090	96–128 GB	Llama 4 Scout em FP8/FP16, Qwen 3.5 122B-A10B em INT4	Produção mono-tenant para ferramenta interna

Aviso: GPUs de consumo não são projetadas para carga sustentada 24/7. Refrigeração e energia viram problemas reais de engenharia. Para qualquer coisa além de uma única workstation, considere GPUs de datacenter.

Cenários reais de produção:

Tooling de IA interno para SaaS médio de ~50–200 funcionários.
Fine-tuning de um modelo 70B com LoRA / QLoRA.
Servidor de inferência interno para um time de engenharia de 5–20 pessoas.

Tier 3 — Apple Silicon (MLX / Metal)

Onde a Apple é genuinamente competitiva — e onde a maioria entende errado o trade-off.

A vantagem: memória unificada. Um Mac Studio com 256GB de memória unificada consegue sustentar modelos que de outra forma exigiriam 4–8× H100s — a uma fração do preço (~$10K USD para o Mac vs $80K+ USD para o equivalente em GPU). Importante para o Brasil e LATAM onde importar Macs é mais barato e rápido que importar GPUs de datacenter NVIDIA — Macs entram pelo regime tradicional de importação de eletrônicos enquanto GPUs de datacenter passam por classificações fiscais piores.

A pegadinha: menor throughput por request. Os cores de GPU da Apple têm FLOPS bruto menor que NVIDIA de datacenter, e o stack de software de inferência (MLX, llama.cpp Metal backend) ainda não iguala as otimizações do CUDA (variantes de FlashAttention, aceleração FP8, batching avançado).

Hardware	Memória unificada	O que roda confortável (INT4)	Uso realista
MacBook Pro M4 Max 36GB	36 GB	Até ~50B denso, Qwen 3.6 35B-A3B	Assistente de código de desenvolvedor solo
MacBook Pro M4 Max 64GB	64 GB	Llama 3.3 70B Q4, Qwen 3.5 122B-A10B Q4	Power user, demos, avaliação de modelos
Mac Studio M3 Ultra 96GB	96 GB	Llama 3.3 70B FP8, Llama 4 Scout INT4	Single-user pesado, assistente compartilhado em escritório pequeno
Mac Studio M3 Ultra 192GB	192 GB	Llama 4 Scout FP8, Llama 4 Maverick INT4, DeepSeek V4-Flash INT4	Inferência de MoE fronteira para um único usuário
Mac Studio M4 Ultra 256–512GB	256+ GB	DeepSeek V4-Flash FP8, Kimi K2.6 INT4 nativo, V4-Pro com quantização forte	Inferência fronteira local séria; a máquina de manchete “rodando modelos de 1T localmente”

Exemplos de throughput (Mac Studio M3 Ultra, benchmarks reais):

Llama 3.3 70B Q4 — ~10–15 t/s (vs 20–35 na 4090, mas o Mac monta modelos muito maiores)
Qwen 3.6 35B-A3B Q4 — ~25–40 t/s; MLX roda aproximadamente 2× mais rápido que Ollama no mesmo modelo — vale a pena saber
Kimi K2.6 INT4 nativo — t/s de um dígito mas roda, que é o ponto
DeepSeek V4-Flash INT4 — ~5–10 t/s em máquinas de 192GB+

MLX vs llama.cpp em Apple Silicon: MLX (o framework nativo da Apple) dá o melhor desempenho para muitos modelos — até 2× sobre llama.cpp Metal em Qwen 3.6 35B-A3B em benchmarks publicados. llama.cpp tem suporte mais amplo de modelos. A maioria das pessoas acaba usando os dois dependendo do modelo.

Cenários reais de produção:

Desenvolvedor solo ou time pequeno rodando Llama 3.3 70B ou Qwen 3.6 35B-A3B localmente para trabalho diário de código — a melhor relação preço/desempenho para esse caso de uso em 2026.
Pesquisador avaliando modelos abertos fronteira sem acesso a datacenter.
Consultoria pequena dando demos in loco de modelos grandes para clientes que exigem ver o modelo rodar fora da nuvem.
Power user focado em privacidade rodando um modelo fronteira completamente offline.
O Mac Studio de 256GB+ especificamente para “demonstrar Kimi K2.6 ou DeepSeek V4-Flash em uma única máquina.”

Para o que MLX NÃO serve: servir alta concorrência. Se você precisa servir mais de ~5 usuários concorrentes, NVIDIA ganha decisivamente.

Tier 4 — GPU única de datacenter

Hardware	VRAM	O que roda (FP16)	Características de throughput
A100 80GB	80 GB	Llama 3.3 70B FP16, Mistral Large denso, Qwen 3.6 35B-A3B com contexto enorme	Cavalo de batalha confiável; ~2× mais lento que H100 mas mais barato
H100 80GB	80 GB	Igual à A100 + suporte FP8 nativo; Llama 4 Scout INT4	Padrão de produção para modelos classe 70B
H200 141GB	141 GB	Llama 4 Scout FP16, Qwen 3.5 122B-A10B FP16, contextos muito longos	Melhor GPU única para MoE classe 100B
B200 (Blackwell)	192 GB	DeepSeek V4-Flash INT4, modelos MoE maiores	Tier topo atual; salto grande de throughput sobre H100

Cenários reais de produção:

Servir em produção para SaaS com centenas a milhares de usuários (vLLM + Llama 70B em H100).
Pipeline de processamento em batch (extrair dados estruturados de milhões de documentos).
Plataforma de IA interna corporativa servindo milhares de funcionários.
Fine-tuning de modelos 7B–13B em precisão completa; LoRA em 70B.

Custo realista no Brasil: Na nuvem — $2–5 USD/hora dependendo do provedor. AWS São Paulo tende a custar 20–30% mais que us-east. Para workloads sensíveis à latência ou que processam dados de cidadãos brasileiros, vale a região local mesmo com o premium. On-prem H100 — ~$25–40K USD por GPU mais o servidor, sem contar impostos de importação que podem chegar a ~80–100% do valor declarado dependendo da classificação fiscal.

Tier 5 — Cluster multi-GPU de datacenter

Configuração	VRAM total	O que roda	Caso de uso
4× H100 / 2× H200	320–280 GB	Kimi K2.6 INT4 nativo, DeepSeek V4-Flash FP8, Llama 4 Maverick INT4	A nova linha base de “modelo aberto fronteira” em 2026
8× H100 (um nó DGX)	640 GB	Llama 4 Maverick FP8, DeepSeek V4-Flash FP16, Kimi K2.6 FP8	Configuração padrão para “modelo aberto fronteira em produção”
8× H200	1.1 TB	DeepSeek V4-Pro INT8, Kimi K2.6 FP16	Servir MoE fronteira com qualidade máxima
16× H100+ (multi-nó, InfiniBand)	1.3 TB+	DeepSeek V4-Pro FP16, servir fronteira com contexto muito longo	Servir hiperescala, provedores de modelos

Cenários reais de produção:

Auto-hospedar DeepSeek V4 para uma empresa regulada (banco, hospital, governo).
Startup servindo um modelo aberto fronteira como seu próprio produto API.
Plataforma de IA multi-tenant com milhares de usuários concorrentes.
Laboratório de pesquisa rodando inferência fronteira + experimentos de fine-tuning.

Parte 4 — Matriz rápida de decisão

Se a sua situação é…	Escolha este modelo	Neste hardware
Dev solo, quer assistente de código	Qwen 3.6 35B-A3B ou Devstral 24B	RTX 4090 / Mac M4 Max 36GB+
Time pequeno, RAG interno sobre documentos	Llama 3.3 70B (Q4)	RTX 4090 / Mac Studio 96GB / H100 na nuvem
SaaS médio, precisa auto-hospedar features de IA	Llama 3.3 70B ou Qwen 3.6 35B-A3B	1× H100 com vLLM
Empresa com requisitos de soberania de dados (LGPD)	Mistral Small / Medium ou Qwen 3.6 35B-A3B	1× H100 ou 2× RTX 5090, datacenter local
Produto multilíngue (BR + LATAM + Ásia)	Família Qwen 3.5 / 3.6	Dimensionado ao seu tráfego
Qualidade open fronteira, indústria regulada (banco/saúde/governo)	DeepSeek V4-Pro	Cluster 8× H200
Agente de programação fronteira auto-hospedado	Kimi K2.6 (INT4 nativo)	4× H100 ou 2× H200
Produto open de programação agêntica (startup)	Kimi K2.6 ou DeepSeek V4-Flash	Single H100 DGX ou provedor hosted
Pesquisa de raciocínio/matemática	DeepSeek R1 ou V4-Pro	8× H100 / H200
Agente local com tool calling com orçamento apertado	Gemma 4 9B	RTX 4070 Ti / Mac M3 Pro
Visão + texto em hardware de consumo	Gemma 4 9B (visão) ou Llama 4 Scout	RTX 4090 / Mac M4 Max
Modelo fronteira em uma única máquina para uso pessoal	Kimi K2.6 (INT4 nativo) ou DeepSeek V4-Flash	Mac Studio M4 Ultra 256GB+
Espremer máximo throughput de hardware NVIDIA	Variantes Nemotron	H100/H200/B200 com TensorRT-LLM
Contexto longo (>1M tokens)	Llama 4 Scout (10M) ou DeepSeek V4 (1M)	Dimensionado ao modelo

Parte 5 — Três padrões que vale internalizar

1. MoE é para servir, denso é para caber. Rodando um usuário em uma máquina? Modelos densos te dão mais qualidade por GB de memória. Servindo muitos usuários? MoE ganha porque a quantidade de parâmetros ativos define seu custo por token enquanto a quantidade de parâmetros totais define sua conta única de memória.

2. O Mac Studio é real, mas só para inferência de modelos grandes com um único usuário. Um Mac Studio de 256GB roda modelos que custariam $80K+ USD em hardware NVIDIA, em velocidades de um único usuário. Genuinamente útil para desenvolvedores solo, pesquisadores, consultorias pequenas. Especialmente relevante no Brasil e LATAM onde o custo e dificuldade de importar GPUs de datacenter NVIDIA fazem do Mac uma alternativa prática séria. Não é plataforma para servir em produção — para isso, NVIDIA ganha em throughput, batching e maturidade de software. Use MLX em vez de llama.cpp quando ambos suportarem o modelo — speedups mensuráveis de 2× em 2026.

3. A quantização nativa muda a matemática do deploy. Kimi K2.6 sai em INT4 nativo. DeepSeek V4 sai em mistura FP8 + FP4. Isso é uma mudança importante em relação ao mundo antigo onde quantização sempre era um trade-off de qualidade-vs-caber. Para modelos com quantização nativa, INT4 é o deploy pretendido — você não está abrindo mão de nada. Espere mais modelos seguindo esse padrão ao longo de 2026.

Reflexão final

Pesos abertos em 2026 cobrem todo o espectro de qualidade. Não existe mais capacidade fronteira disponível só por trás de uma API fechada — DeepSeek V4-Pro, Kimi K2.6, e Qwen 3.6 Max estão todos a uma distância de golpe de GPT-5 e Claude Opus nos benchmarks que importam para trabalho de produção. A pergunta real de engenharia já não é “aberto vs fechado” — é “qual modelo aberto, em qual quantização, em qual hardware, para qual workload.” Os números deste guia devem te dar o suficiente para tomar essa decisão sem chutar.

Para o Brasil e LATAM especificamente, o caso de auto-hospedar modelos open-weights é ainda mais forte que em outras regiões: regulamentação de soberania de dados em cada país (LGPD no Brasil, Ley 1581 na Colômbia, LFPDPPP no México, Ley 25.326 na Argentina), volatilidade cambial que torna imprevisíveis os custos em USD das APIs (especialmente sentida no Brasil e Argentina), e latência a partir de datacenters norte-americanos que importa para experiências de usuário sensíveis. A estratégia vencedora típica é: começar em API para validar produto, mover o volume sustentado para auto-hospedagem assim que o gasto mensal justificar o investimento — e quando o volume justificar on-prem, considerar seriamente a economia tributária de processar tudo localmente em vez de pagar APIs em dólar.

O ritmo vai continuar. Espere outra onda grande de lançamentos para o final do Q3 2026 — provavelmente DeepSeek V4.x, Qwen 4 e um refresh de Llama 4.x. Os padrões arquiteturais — economia de MoE, trade-offs de quantização, MLX vs CUDA, matriz de dimensionamento-para-hardware — não vão mudar. Construa seu sistema em torno dos padrões, não dos nomes dos modelos.

Tags: Codestral / Devstral CUDA DeepSeek R1 DeepSeek V4-Flash DeepSeek V4-Pro Gemma 4 Kimi K2 Large Language Models (LLM)Llama 4 Magistral Mistral MLX Nemotron Qwen 3

Guia Prático de LLMs Open-Weights 2026

Por que você deveria fazer o treinamento oficial do Claude (e o que você vai ganhar de verdade com isso)

O Confronto do Silício: A Batalha de US$ 200 Bilhões que Está Redefinindo a IA

Guia Prático de LLMs Open-Weights 2026

Aplicar.AI

Related Stories

O Confronto do Silício: A Batalha de US$ 200 Bilhões que Está Redefinindo a IA

OpenAI Vai para a AWS: A Vantagem de IA da Microsoft Azure Acaba de Diminuir

Por que você deveria fazer o treinamento oficial do Claude (e o que você vai ganhar de verdade com isso)

Deixe um comentário Cancelar resposta

Aprender & Aplicar IA

Postagens Recentes

Categorias

Welcome Back!

Retrieve your password