Etiqueta: Qwen-VL

Qwen-VL es la serie de modelos de visión y lenguaje de Alibaba Cloud, hecha para manejar imágenes, gráficos, capturas y documentos junto con texto. Versiones como Qwen2.5-VL y Qwen3-VL soportan comprensión de imágenes de alta resolución, OCR multilingüe, análisis de video, interpretación de capturas de UI y tareas de agentes visuales como hacer clic en interfaces. Qwen-VL la rompe en VQA de documentos, razonamiento sobre diagramas matemáticos, extracción de datos de gráficos y detección de objetos. Sirve un montón para etiquetado de productos en e-commerce, accesibilidad, procesamiento automático de facturas y pipelines agénticos visuales. Disponible como pesos abiertos en Hugging Face, ModelScope y vía la API DashScope de Alibaba Cloud.

Recomendado