阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

2025-03-27 07:33:35

量子黑客

发布在

快讯

阅读：504

3月27日凌晨，阿里云发布通义千问Qwen模型家族新成员——Qwen2.5-Omni，这是一款端到端多模态旗舰模型，并已在Hugging Face、ModelScope、DashScope和GitHub上开源。Qwen2.5-Omni支持文本、图像、音频和视频等多种输入形式，具备实时流式响应能力，能同时生成文本与自然语音合成输出。该模型采用了Thinker-Talker双核架构，Thinker模块处理多模态输入生成语义表征，Talker模块则负责流畅生成语音。相比同类单模态模型，Qwen2.5-Omni在多模态任务OmniBench上达到SOTA表现，并在语音识别、翻译、音频理解等多个单模态任务中表现出色。用户可通过提供的链接访问相关资源和Demo体验。

原文链接

本文链接：https://kx.umi6.com/article/16217.html

转载请注明文章出处

Qwen2.5-Omni