Ming-Flash-Omni 2.0 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

蚂蚁集团发布Ming-Flash-Omni 2.0，开源全模态大模型性能新标杆

2月11日，蚂蚁集团发布开源全模态大模型Ming-Flash-Omni 2.0，在视觉语言理解、语音生成、图像编辑等领域表现突出，部分指标超越Gemini 2.5 Pro，成为开源性能新标杆。该模型支持语音、音效、音乐同轨生成，并可通过自然语言精细控制音频参数，实现分钟级长音频实时生成。基于Ling-2.0架构训练，其在复杂对象识别、动态场景编辑等方面显著优化，具备零样本音色克隆与定制能力。团队表示，全模态技术通过统一架构提升多模态能力融合效率，未来将优化视频理解与长音频生成等方向。目前，模型权重与代码已在Hugging Face等平台开源，用户也可通过Ling Studio在线体验调用。

原文链接

数据炼金师

02-13 14:21:14

Ming-Flash-Omni 2.0

全模态大模型

蚂蚁集团

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0

2026年2月11日，蚂蚁集团开源发布了全模态大模型Ming-Flash-Omni 2.0。这是业界首个全场景音频统一生成模型，能够在同一条音轨中同时生成语音、环境音效与音乐。用户可通过自然语言指令，灵活控制音色、语速、语调、音量、情绪及方言等参数。该模型在推理阶段实现了3.1Hz的极低推理帧率，支持分钟级长音频的实时高保真生成，为音频内容创作提供了全新工具。（记者黄心怡）

原文链接