7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

2025-03-27 13:46:24

量子思考者

发布在

科普

阅读：433

标题：7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用

深夜重磅！阿里发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。仅需一个一体化模型，就能处理文本、音频、图像、视频全模态，并实时生成文本和自然语音。该模型被称为7B模型的全能冠军。

打开Qwen Chat即可与它实时视频或语音交互。在大街上，它能识别环境并按需推荐餐馆；走进厨房，它能指导烹饪。在多模态任务OmniBench评测中，Qwen2.5-Omni刷新记录，拿下新SOTA，优于谷歌Gemini-1.5-Pro等模型。它还能胜任数学教学、论文讲解、艺术指导等任务。

模型轻量，手机等终端可轻松部署，且开源采用宽松的Apache2.0协议，开发者和企业可免费商用。网友认为这是真正的OpenAI。模型已在Qwen Chat上支持AI语音和视频通话功能。

Qwen2.5-Omni采用Thinker-Talker双核架构，Thinker负责信息处理，Talker负责语音合成。团队还提出TMRoPE算法和位置嵌入技术，使模型能在多模态任务中表现优异。相比传统模型，Qwen2.5-Omni原生支持多模态输入和输出，效率更高。

与苹果合作后，Qwen将为国行iPhone提供AI功能，同时吸引了OPPO、vivo、荣耀等超90%国产手机品牌接入。阿里通义千问已开源200多款模型，涵盖全模态领域，生态繁荣。未来，团队将提升语音指令遵循能力和音视频协同理解能力，拓展多模态边界。

访问链接：
Qwen Chat：https://chat.qwenlm.ai
Hugging Face：https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope：https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope：https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub：https://github.com/QwenLM/Qwen2.5-Omni
Demo体验：https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo

原文链接

本文链接：https://kx.umi6.com/article/16250.html

转载请注明文章出处

Qwen2.5-Omni-7B