1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

3月27日凌晨,阿里云发布通义千问Qwen模型家族新成员——Qwen2.5-Omni,这是一款端到端多模态旗舰模型,并已在Hugging Face、ModelScope、DashScope和GitHub上开源。Qwen2.5-Omni支持文本、图像、音频和视频等多种输入形式,具备实时流式响应能力,能同时生成文本与自然语音合成输出。该模型采用了Thinker-Talker双核架构,Thinker模块处理多模态输入生成语义表征,Talker模块则负责流畅生成语音。相比同类单模态模型,Qwen2.5-Omni在多模态任务OmniBench上达到SOTA表现,并在语音识别、翻译、音频理解等多个单模态任务中表现出色。用户可通过提供的链接访问相关资源和Demo体验。

原文链接
本文链接:https://kx.umi6.com/article/16217.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
阿里云在泰国第二座数据中心正式启用
2025-02-13 14:04:00
阿里云造“Agent工厂”,百炼MCP服务上线,无需代码5分钟建Agent
2025-04-09 17:58:11
微软开源多模态 AI Agent“Magma”:购物时可自动下单,还能推测视频人物行为
2025-02-26 10:28:10
24小时热文
更多
扫一扫体验小程序