Mientras OpenAI, Anthropic y Google se pelean los titulares con sus modelos cerrados — y nos cobran en dólares cada mes —, una familia de inteligencia artificial china se ha convertido, casi sin hacer ruido, en la IA abierta más descargada del mundo. Se llama Qwen, viene de la mano de Alibaba Cloud, y para abril de 2026 ya había cruzado los 1.000 millones de descargas, acaparando más de la mitad del uso global de modelos abiertos.
Para nosotros en Latinoamérica esto importa mucho más de lo que parece: hablamos de una IA potente, gratuita, que funciona muy bien en español, que respeta la privacidad de los datos, y que se puede correr en hardware al que sí podemos acceder sin pagar una fortuna en dólares. En este artículo te cuento qué es Qwen, para qué sirve, y cómo ponerla a funcionar en tu propio computador.
¿Qué es Qwen, explicado fácil?
Qwen (se pronuncia «chwen», viene del chino 通义千问 — «Mil Preguntas») es la familia de modelos de IA de Alibaba. No es un solo producto como ChatGPT, sino más bien una marca paraguas. Para entendernos: piensa en Qwen como si fuera una marca — así como «Samsung» abarca desde un celular económico hasta un televisor QLED de alta gama o un refrigerador inteligente.
Dentro de la familia Qwen vas a encontrar:
- Modelos diminutos que corren hasta en un celular (0,6B de parámetros)
- Modelos medianos para un portátil normal (4B–9B)
- Modelos serios para un PC gamer (27B–35B)
- Modelos gigantes que compiten de tú a tú con GPT-5 y Claude Opus (397B+)
La diferencia clave frente a ChatGPT o Claude: la mayoría de modelos Qwen son de pesos abiertos bajo licencia Apache 2.0. Esto quiere decir que los puedes descargar, correr en tu propio equipo, modificarlos, usarlos en proyectos comerciales, y nunca enviarle un solo dato a Alibaba si no quieres.
Pesos abiertos vs código abierto: «Pesos abiertos» significa que el archivo del modelo entrenado es gratis para descargar y usar. No siempre se publica el dataset de entrenamiento completo, pero para efectos prácticos el modelo es tuyo apenas lo bajas.
¿Por qué Qwen importa, y por qué importa especialmente en Latam?
Hay varias razones por las que Qwen es interesante en 2026, y algunas pegan muy fuerte en nuestra región:
- Es gratis, y es buena. El modelo Qwen3.5-397B-A17B está entre los mejores modelos abiertos del mundo, comparable con GPT-5 y Claude Opus.
- Funciona en hardware modesto. Los modelos de 4B y 9B le rinden mejor que muchos modelos del doble o triple de tamaño.
- Habla muy buen español. Qwen3.5 soporta 201 idiomas y dialectos (antes eran 82), incluyendo un español neutro de alta calidad.
- Te ahorra dólares. No hay que pagar suscripción en USD, ni preocuparse por la tasa de cambio cada mes.
- Privacidad real. Para abogados, médicos, contadores y periodistas que manejan información sensible, no enviar datos a un servidor en Estados Unidos es un alivio enorme.
- Es multimodal. Las versiones nuevas entienden texto, imágenes, audio y video en una sola arquitectura.
La lógica detrás de la jugada de Alibaba es astuta: ellos ganan plata con la infraestructura en la nube, no con licencias. Al regalar los modelos atraen a millones de desarrolladores — y de paso, a los indies de Bogotá, Medellín, Buenos Aires o Ciudad de México que antes no podían pagar las APIs gringas.
El árbol genealógico de Qwen
Qwen no es un solo modelo, es un árbol con muchas ramas especializadas. Te cuento cómo leer los nombres.
Un nombre como Qwen3.5-Coder-32B-Instruct se descifra así:
- Qwen — la familia
- 3.5 — la generación
- Coder — la especialización (en este caso, programación)
- 32B — la cantidad de parámetros (32 mil millones)
- Instruct — afinado para seguir instrucciones humanas (a diferencia del modelo «base» en bruto)
Las ramas principales
- Qwen (texto general) — para escribir, resumir, conversar, razonar.
- Qwen-Coder — afinado para programación. Qwen3-Coder 480B le compite a Claude Sonnet 4 en tareas de agentes de código.
- Qwen-VL (Visión-Lenguaje) — entiende imágenes, gráficas, capturas de pantalla y PDFs. Ideal para OCR y análisis de documentos.
- Qwen-Audio — transcripción de voz, clasificación de sonidos, análisis musical, chat por voz.
- Qwen-Omni — el modelo todoterreno: texto + imagen + audio + video en una sola arquitectura, con respuesta de voz en tiempo real.
- Qwen-Math — enfocado en razonamiento matemático y resolución paso a paso.
Las generaciones actuales (a mediados de 2026)
- Qwen3 (abril 2025) — la generación caballito de batalla; Apache 2.0; tamaños desde 0,6B hasta 235B.
- Qwen3.5 (febrero 2026) — actualización grande. Multimodal nativo, 201 idiomas, flagship de 397B.
- Qwen3.6 (abril 2026) — enfoque en IA agéntica; Qwen3.6-27B (denso) y Qwen3.6-35B-A3B (MoE) son hoy el punto dulce para correr en casa.
- Qwen3.6-Plus / Max-Preview — la primera generación propietaria de Alibaba, solo disponible vía API. Ojo: estos ya no son abiertos.
Nota rápida sobre MoE vs Denso: Un modelo «Mezcla de Expertos» (MoE) como el 35B-A3B tiene 35 mil millones de parámetros en total, pero solo activa unos 3 mil millones a la vez. Esto lo vuelve mucho más rápido y barato de correr, manteniendo el conocimiento amplio de un modelo mucho más grande.
Casos de uso reales (con ejemplos latinos)
¿Para qué sirve esto en la práctica? Te paso algunos ejemplos pensados para realidades de nuestra región.
Para uso personal y profesional independiente
- Copiloto de programación privado. Corre Qwen3-Coder localmente en VS Code con Continue.dev. Si trabajas como freelance para clientes con NDAs estrictos (común con clientes de Estados Unidos o Europa), su código jamás sale de tu equipo.
- Asistente para análisis de documentos sensibles. Métele contratos, historias clínicas o estados financieros a Qwen3.5 corriendo local — perfecto si manejas información protegida por la Ley 1581 de 2016 (Habeas Data en Colombia) o la LGPD en Brasil.
- Investigador personal. La ventana de 1 millón de tokens de Qwen3.6-Plus te permite cargar un libro completo, una base de código, o un año de correos y hacerle preguntas cruzadas.
- Traducción y redacción multilingüe. Para freelancers en plataformas como Workana o Upwork que escriben en inglés para clientes gringos, Qwen redacta y traduce con calidad muy decente, sin costo por palabra.
- OCR de documentos. Qwen-OCR y Qwen-VL extraen texto de cédulas, RUTs, facturas, recibos públicos escaneados y hasta de letra manuscrita en varios idiomas.
Para emprendedores y pymes
- Chatbots en WhatsApp con privacidad. Monta un asistente de atención al cliente para tu tienda en Instagram o WhatsApp Business sin pagarle a OpenAI por cada mensaje.
- Análisis de llamadas de ventas. Con Qwen-Audio transcribes llamadas comerciales, detectas el sentimiento del cliente, y marcas oportunidades — todo sin enviar audios a servidores extranjeros.
- Agentes de soporte 24/7. El «modo pensamiento» de Qwen maneja preguntas complejas con razonamiento de varios pasos.
- Revisión automática de código. Para agencias de software con clientes que exigen que el código no salga del país, un Qwen3-Coder autohospedado revisa cada pull request internamente.
- Afinamiento para tu industria. Como los pesos son abiertos, puedes entrenar Qwen con tu propia data (vocabulario médico, jerga legal colombiana, productos específicos) usando LoRA/QLoRA — algo que con ChatGPT simplemente no es posible.
Hardware: lo que sí necesitas para correrlo en casa
Esta es la parte donde casi todos los artículos se quedan cortos, así que vamos al grano. Hay tres caminos: Mac con Apple Silicon (MLX), PC con GPU NVIDIA (CUDA), o alquilar GPUs en la nube.
Camino 1: Mac con Apple Silicon (MLX)
MLX es el framework nativo de Apple que aprovecha la memoria unificada y Metal. En Macs con chip M, los modelos optimizados con MLX corren aproximadamente 2× más rápido que las versiones estándar de PyTorch.
La gran ventaja de Apple Silicon es la memoria unificada: tu «VRAM» es tu RAM, así que un Mac Studio con 128GB puede correr modelos que en PC necesitarían una tarjeta gráfica de USD $30.000.
| Configuración Mac | Tamaño cómodo | Ejemplo | Velocidad realista |
|---|---|---|---|
| M2/M3/M4 base, 16 GB | Hasta ~9B en Q4 | Qwen3-8B (Q4) | 25–35 tok/s |
| M3/M4 Pro, 24–36 GB | Hasta ~27B en Q4 | Qwen3.6-27B (Q4) | 15–25 tok/s |
| M3/M4 Max, 48–64 GB | 30B–35B MoE en 4-bit MLX | Qwen3.6-35B-A3B | 60+ tok/s |
| M3 Ultra / Mac Studio, 128–512 GB | Modelos de 100B+ | Qwen3.5-122B-A10B | 20–30 tok/s |
Punto de partida recomendado: un Mac con 24GB+ de memoria unificada más LM Studio (interfaz gráfica, arrastra y suelta) o mlx-lm (terminal).
Realidad latina: Los Macs en Colombia son caros. Un MacBook Pro M4 con 24GB de RAM ronda los 12–15 millones de pesos. Pero si ya tienes uno por trabajo, ya tienes una máquina de IA potente sin gastar un peso más.
Camino 2: PC con GPU NVIDIA (CUDA)
Para Windows o Linux, NVIDIA sigue siendo el rey. La restricción clave es la VRAM — el modelo tiene que caber en la memoria de la GPU.
| GPU | VRAM | Mejor Qwen | Notas |
|---|---|---|---|
| RTX 4060 Ti / 5060 Ti | 16 GB | Qwen3-8B / 9B en Q4–Q8 | Excelente para empezar |
| RTX 4080 / 4090 | 16–24 GB | Qwen3.6-27B en Q4 (~16 GB) | Punto dulce para desarrolladores |
| RTX 5090 | 32 GB | Qwen3.6-35B-A3B en Q4 (~21 GB) | La mejor GPU de consumo |
| 2× RTX 4090 / 5090 | 48–64 GB | Qwen3-72B o 100B+ MoE en Q4 | Paralelismo con vLLM |
| H100 / A100 (80 GB) | 80 GB | Qwen3.5-397B con cuantización | Solo en nube |
Realidad latina: Una RTX 4060 Ti de 16GB en Mercado Libre Colombia anda por 3–4 millones de pesos. Una 4090 ya pasa de los 12 millones. Si arrancas, una 4060 Ti o 5060 Ti es más que suficiente para correr Qwen 8B–9B con muy buena fluidez.
Regla rápida sobre cuantización:
- Q4_K_M — la opción por defecto. ~75% más pequeño que precisión completa con pérdida mínima de calidad.
- Q5_K_M — el punto dulce si tienes algo de VRAM de sobra.
- Q8_0 — casi sin pérdida; úsalo si tienes memoria de sobra.
- NVFP4 — el nuevo formato 4-bit nativo de Blackwell (RTX serie 50); aún más eficiente en hardware compatible.
Camino 3: GPUs en la nube (cuando lo local no alcanza)
Si quieres correr los modelos gigantes — Qwen3.5-397B o Qwen3-Coder-480B — necesitas infraestructura alquilada:
- RunPod / Vast.ai / Lambda Labs — alquilas H100 por hora (USD $2–4/hora típico). Aceptan tarjeta de crédito normal, lo cual es importante porque algunos servicios gringos rechazan tarjetas latinoamericanas.
- Alibaba Cloud Model Studio (DashScope) — la API oficial; cuentas nuevas tienen 1M de tokens de entrada + 1M de salida gratis por 90 días. El modelo más pequeño arranca en USD $0,01 por millón de tokens.
- AWS Bedrock (São Paulo) — Qwen administrado con residencia de datos en Brasil, útil si tu cliente exige que la información no salga de Sudamérica.
- OpenRouter — acceso proxy a muchas variantes de Qwen con una sola API key.
Manos a la obra: corre Qwen en 5 minutos
Te muestro cómo tener Qwen funcionando en literalmente cinco minutos.
Opción A: Ollama (la más fácil, funciona en todo)
Instala Ollama desde ollama.com, luego en la terminal:
# Pequeño y rápido — corre en cualquier portátil moderno
ollama run qwen3:8b
# Punto dulce para máquinas de 24GB
ollama pull qwen3.6:27b
# El mejor modelo de código para 24GB+ de VRAM
ollama pull qwen3.6:35b-a3b-coding
Ollama detecta tu GPU automáticamente, descarga la cuantización correcta, y te abre una interfaz de chat al instante.
Opción B: LM Studio (la mejor interfaz gráfica)
- Descarga LM Studio.
- Busca «Qwen 3.5 MLX» (en Mac) o «Qwen 3.6 GGUF» (en Windows/Linux).
- Elige un modelo marcado en verde («Sí funciona en tu hardware»).
- Haz clic en «Load» y empieza a chatear.
LM Studio también expone una API compatible con OpenAI en http://localhost:1234, así que cualquier aplicación que se conecte a OpenAI puede hablar con tu Qwen local.
Opción C: MLX en Apple Silicon (lo más rápido en Mac)
pip install mlx-lm
mlx_lm.generate \
--model mlx-community/Qwen3-8B-Instruct-4bit \
--prompt "Explícame el algoritmo de Dijkstra en dos párrafos."
Opción D: vLLM en NVIDIA (lo mejor para producción)
# Servir Qwen3.6-27B en una sola GPU de 24GB
vllm serve Qwen/Qwen3.6-27B --quantization awq
# Servir Qwen3-72B repartido en 2 GPUs
vllm serve Qwen/Qwen3-72B --tensor-parallel-size 2
Proyectos prácticos para empezar hoy
Algunas ideas concretas que puedes montar con un Qwen local:
- «ChatGPT» privado para tu empresa. Monta Qwen3.6-27B en un PC con buena tarjeta gráfica, conéctalo con Open WebUI, y tu equipo tiene un asistente de chat privado. Cero fuga de datos al exterior.
- Bot de revisión de código. Corre Qwen3-Coder con Ollama y conecta un GitHub Action a
localhost:11434. Cada pull request lo revisa la IA antes de un humano — sin que el código del cliente toque servidores extranjeros. - Asistente jurídico o contable. Combina Qwen3.5-9B con una base vectorial como Chroma. Carga contratos, sentencias o estados financieros; haz preguntas; nada se va de tu portátil. Ideal para abogados, contadores y consultores que cumplen normativa de Habeas Data.
- Traductor de viaje sin internet. Qwen 4B en un MacBook Air maneja traducción en tiempo real en 201 idiomas, sin necesidad de conexión. Útil para periodistas, trabajadores de ONGs y viajeros.
- Hogar inteligente sin nube. Qwen-Audio + Home Assistant te da un asistente de voz que nunca llama a casa. Privacidad absoluta.
- Bibliotecario personal de investigación. Carga toda tu biblioteca de Zotero o un año de artículos guardados a Qwen3.6-Plus (vía API), y hazle preguntas cruzadas gracias al contexto de 1 millón de tokens.
- Atención al cliente en WhatsApp. Conecta Qwen local con la API de WhatsApp Business via n8n o una herramienta similar. Tu pequeño negocio responde 24/7 sin pagar dólares mensuales por cada conversación.
¿Cómo se compara Qwen con la competencia?
Los rivales abiertos principales de Qwen son Llama de Meta y DeepSeek. El panorama simplificado en 2026:
- Qwen — el rango más amplio de tamaños, el mejor en multilingüe, la mayor variedad multimodal, y el calendario de lanzamientos más activo.
- Llama — modelos densos sólidos, ecosistema muy maduro, pero con menos tamaños y lanzamientos más lentos.
- DeepSeek — razonamiento y matemáticas excepcionales; menos variantes especializadas.
Frente a los modelos cerrados (GPT-5, Claude Opus, Gemini 2.5), los flagships de Qwen son competitivos pero no claramente superiores. Donde Qwen gana sin discusión es en precio por token, en despliegue local, y en la libertad para afinarlo a tu gusto.
Cosas con las que hay que tener cuidado
Algunas advertencias honestas:
- Algunos modelos nuevos de Qwen ya no son abiertos. Qwen3.6-Plus y Qwen3.6-Max-Preview son solo vía API. Alibaba está empezando a reservar lo mejor de lo mejor detrás de una cuenta de pago.
- Hay licencias variadas. La mayoría son Apache 2.0 (totalmente permisiva), pero algunas — especialmente versiones grandes antiguas — usan la «Qwen Research License», más restrictiva. Siempre revisa la ficha del modelo.
- Censura china. Los modelos Qwen reflejan las normas regulatorias chinas en temas políticamente sensibles. Para la mayoría de usos comerciales esto no afecta; para periodismo o investigación política sobre China sí.
- El contexto largo come VRAM. Procesar 100.000+ tokens consume mucha memoria adicional. Calcula 30–50% más VRAM que la base del modelo si vas a procesar documentos extensos.
- Soporte en español: muy bueno, pero no perfecto. A veces se le escapan modismos colombianos muy locales o ciertos giros del español rioplatense. Para texto formal y técnico, rinde excelente.
En resumen
- Qwen es la familia de IA abierta de Alibaba — se pronuncia «chwen», y cubre texto, código, imágenes, audio y modelos multimodales.
- Es la IA abierta más descargada del mundo en 2026, con cerca de 1.000 millones de descargas y más del 50% del uso global de modelos abiertos.
- Casi todos los modelos son Apache 2.0 — uso comercial libre, fine-tuning libre, autohospedaje libre.
- Puedes correr modelos útiles en hardware accesible: un modelo de 8B corre en un portátil de 16GB; uno de 27B para programación corre en una GPU de 24GB.
- Tres formas de correrlo local: Ollama (la más fácil), LM Studio (la mejor interfaz), o MLX/vLLM (la más rápida).
- Aplicaciones útiles para Latam: copilotos de código privados, chatbots de WhatsApp sin pagar dólares, análisis de documentos sensibles con cumplimiento de Habeas Data, traducción offline, asistentes de voz privados.
- Ojo con la licencia de los nuevos Qwen 3.6 «Plus» y «Max», que ya son propietarios.
Si te tiene cansado el ChatGPT Plus en dólares, los límites de uso, o la idea de mandar información sensible de tus clientes a servidores en Estados Unidos, Qwen es la puerta de entrada más fácil a tener una IA potente, privada y gratuita corriendo en tu propio equipo.
Elige un modelo de 8B, instala Ollama, y en menos de diez minutos tienes un asistente capaz, gratis, y completamente tuyo — sin pagar un solo peso al mes.
Bienvenido a 2026: la mejor IA en tu bolsillo puede ser china, abierta, y tuya.







