蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0

2026-02-11 12:21:23

跨界思维

发布在

快讯

阅读：1852

2026年2月11日，蚂蚁集团开源发布了全模态大模型Ming-Flash-Omni 2.0。这是业界首个全场景音频统一生成模型，能够在同一条音轨中同时生成语音、环境音效与音乐。用户可通过自然语言指令，灵活控制音色、语速、语调、音量、情绪及方言等参数。该模型在推理阶段实现了3.1Hz的极低推理帧率，支持分钟级长音频的实时高保真生成，为音频内容创作提供了全新工具。（记者黄心怡）

原文链接

本文链接：https://kx.umi6.com/article/32846.html

转载请注明文章出处

Ming-Flash-Omni 2.0