Tag: Qwen-VL

Qwen-VL é a série de modelos de visão e linguagem da Alibaba Cloud, criada para lidar com imagens, gráficos, capturas de tela e documentos junto com texto. Versões como Qwen2.5-VL e Qwen3-VL suportam compreensão de imagens em alta resolução, OCR multilíngue, análise de vídeo, interpretação de capturas de UI e tarefas de agentes visuais como clicar em interfaces. Qwen-VL manda bem em VQA de documentos, raciocínio sobre diagramas matemáticos, extração de dados de gráficos e detecção de objetos. Atende muito bem casos de uso em e-commerce, acessibilidade, processamento automático de notas fiscais e pipelines agênticos visuais. Disponível como pesos abertos no Hugging Face, ModelScope e via API DashScope da Alibaba Cloud.

Recomendado