Tag: Qwen-Omni

Qwen-Omni é a série de modelos multimodais ponta a ponta da Alibaba Cloud, que processa texto, imagens, áudio e vídeo em uma única arquitetura unificada, com saída de voz em streaming em tempo real. Modelos como Qwen2.5-Omni e Qwen3-Omni aceitam qualquer combinação de modalidades como entrada e respondem com texto e voz natural. Mandam bem em assistentes de voz, tradução em tempo real, compreensão de vídeo com contexto de áudio, acessibilidade e agentes multimodais interativos. Qwen-Omni se destaca pela conversa voz a voz de baixa latência em vários idiomas e expressividade emocional. Disponível como pesos abertos no Hugging Face, ModelScope e via API DashScope, compete diretamente com o modo de voz do GPT-4o e o Gemini Live.

Recomendado