Etiqueta: Qwen-Omni

Qwen-Omni es la serie de modelos multimodales de extremo a extremo de Alibaba Cloud, que procesa texto, imágenes, audio y video en una sola arquitectura unificada, con salida de voz en streaming en tiempo real. Modelos como Qwen2.5-Omni y Qwen3-Omni reciben cualquier combinación de modalidades como entrada y responden con texto y voz natural. La rompen en asistentes de voz, traducción en tiempo real, comprensión de video con contexto de audio, accesibilidad y agentes multimodales interactivos. Qwen-Omni se destaca por conversación voz a voz con baja latencia en varios idiomas y expresividad emocional. Disponible como pesos abiertos en Hugging Face, ModelScope y vía la API DashScope, compite de tú a tú con el modo de voz de GPT-4o y Gemini Live.

Recomendado