5月1日,阿里巴巴旗下通义千问团队发布了Qwen2.5-Omni-3B模型,这是Qwen2.5-Omni-7B的轻量版,参数量为3B,但多模态性能保留了7B版本的90%以上。该模型支持文本、音频、图像和视频等多种输入形式,尤其在实时文本生成和自然语音输出方面表现出色。基准测试显示,其视频理解和语音生成能力接近7B版本。相比7B模型,3B版本显存占用减少了53%,由60.2GB降至28.2GB,使它能在普通24GB GPU设备上运行,适合消费级硬件。此模型采用Thinker-Talker架构和TMRoPE嵌入方法,支持FlashAttention 2和BF16精度优化,提升了运行效率。不过,该模型目前仅限研究用途,企业需获得单独许可才能用于商业开发。
原文链接
本文链接:https://kx.umi6.com/article/18062.html
转载请注明文章出处
相关推荐
.png)
换一换
科学家通过 AI 技术解读动物表情,“看穿”其痛苦与情绪
2025-02-17 08:41:34
AI成iPhone16最大噱头?首波差评已经来了:炮制假新闻、放任垃圾邮件、乱改自拍照……
2024-09-10 19:48:55
消息称蚂蚁集团投资 AI 公司秘塔科技,2023 年以来至少投资 6 家 AI 公司
2024-08-09 10:47:02
420 文章
73536 浏览
24小时热文
更多

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21