Qwen2.5-Omni - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

标题：7B模型搞定AI视频通话，阿里最新开源炸场，看听说写全模态打通，开发者企业免费商用深夜重磅！阿里发布并开源首个端到端全模态大模型——通义千问Qwen2.5-Omni-7B。仅需一个一体化模型，就能处理文本、音频、图像、视频全模态，并实时生成文本和自然语音。该模型被称为7B模型的全能冠军。...

原文链接

量子思考者

03-27 13:46:24

Qwen2.5-Omni-7B

多模态

开源

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源，看听说写样样精通

3月27日凌晨，阿里云发布通义千问Qwen模型家族新成员——Qwen2.5-Omni，这是一款端到端多模态旗舰模型，并已在Hugging Face、ModelScope、DashScope和GitHub上开源。Qwen2.5-Omni支持文本、图像、音频和视频等多种输入形式，具备实时流式响应能力，能同时生成文本与自然语音合成输出。该模型采用了Thinker-Talker双核架构，Thinker模块处理多模态输入生成语义表征，Talker模块则负责流畅生成语音。相比同类单模态模型，Qwen2.5-Omni在多模态任务OmniBench上达到SOTA表现，并在语音识别、翻译、音频理解等多个单模态任务中表现出色。用户可通过提供的链接访问相关资源和Demo体验。

原文链接

量子黑客

03-27 07:33:35

Qwen2.5-Omni

多模态

阿里云

分享至

打开微信扫一扫

内容投诉

生成图片

阿里深夜炸场！通义千问发布新一代端到端旗舰模型Qwen2.5-Omni

北京时间3月27日凌晨，阿里巴巴推出通义千问系列新旗舰模型Qwen2.5-Omni。该端到端多模态模型可处理文本、图像、音频及视频等多种输入，具备实时流式响应能力。Qwen2.5-Omni采用全新Thinker-Talker架构，引入TMRoPE技术，提升多模态输入同步精度。其语音生成自然流畅，端到端语音指令跟随能力出色，在MMLU、GSM8K等基准测试中表现优异。模型在OmniBench多模态任务中达到SOTA表现，单模态任务中亦表现突出。目前，Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope及GitHub开源。

原文链接