综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2026年3月,Qwen3.5-Omni正式发布,具备‘全模态’原生能力,支持文本、图片、音频及音视频输入,可生成带时间戳的音视频脚本。该模型拿下215项SOTA,性能与Gemini 3.1 Pro相当,在音频理解、推理等领域全面超越后者。其新增vibe coding功能,可在视频通话中实时生成代码或前端原型,并支持语义打断、音色克隆等交互能力。实测显示,Qwen3.5-Omni能精准分析复杂视频、解读学术论文、完成网页设计,表现出色。模型采用Thinker-Talker架构,结合Hybrid-Attention MoE技术,实现高效多模态处理与自然语音输出。目前,用户可通过Qwen Chat或阿里云API体验该模型。
原文链接
3月30日,阿里发布新一代全模态大模型Qwen3.5-Omni,在音视频理解、跨模态推理等215项任务中取得SOTA,超越Gemini-3.1 Pro,成为全球最强全模态模型之一。该模型支持113种语言及方言识别,具备音视频Vibe Coding能力,可基于用户口述需求生成复杂产品代码。采用混合注意力MoE架构,Qwen3.5-Omni在DailyOmni、WenetSpeech等多项测试中表现优异,抗干扰能力强,多语言语音生成质量领先。此外,模型能实时交互、调用工具,并精准拆解音视频内容,适用于短视频、直播、游戏等行业。目前,开发者可通过阿里云百炼平台调用,每百万Tokens成本不到0.8元,已服务超100万家企业客户。
原文链接
3月30日,阿里千问正式上线全模态大模型Qwen3.5-Omni。该系列包含Plus、Flash、Light三种尺寸的Instruct版本,支持256k长上下文,可处理超10小时音频输入及400秒以上的720P音视频输入。模型基于海量文本、视觉及超1亿小时音视频数据进行多模态预训练,具备卓越的全模态感知与生成能力。相比前代Qwen3-Omni,新模型多语言能力显著提升,支持113种语种和方言的语音识别以及36种语种和方言的语音生成,进一步拓展了其全球化应用潜力。
原文链接
加载更多
暂无内容