Qwen-Omni - 学习与应用AI

标签： Qwen-Omni

Qwen-Omni 是阿里云推出的端到端多模态模型系列，在统一架构中处理文本、图像、音频和视频，并支持实时流式语音输出。Qwen2.5-Omni 和 Qwen3-Omni 等模型可接受任意模态组合作为输入，并以文本和自然语音双重形式回应。它在语音助手、实时翻译、带音频上下文的视频理解、无障碍应用和交互式多模态智能体方面表现卓越。Qwen-Omni 以多语言低延迟语音对语音对话和情感化语音表达著称。可在 Hugging Face、ModelScope 上以开源权重获取，也可通过阿里云 DashScope API 使用，直接对标 GPT-4o 语音模式和 Gemini Live。

No Result