全模态大模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阿里千问全模态大模型Qwen3.5-Omni上线

3月30日，阿里千问正式上线全模态大模型Qwen3.5-Omni。该系列包含Plus、Flash、Light三种尺寸的Instruct版本，支持256k长上下文，可处理超10小时音频输入及400秒以上的720P音视频输入。模型基于海量文本、视觉及超1亿小时音视频数据进行多模态预训练，具备卓越的全模态感知与生成能力。相比前代Qwen3-Omni，新模型多语言能力显著提升，支持113种语种和方言的语音识别以及36种语种和方言的语音生成，进一步拓展了其全球化应用潜力。

原文链接

星际Code流浪者

03-30 22:11:01

Qwen3.5-Omni

全模态大模型

阿里千问

分享至

打开微信扫一扫

内容投诉

生成图片

万亿思考模型新速度！蚂蚁开源Ring-2.5-1T：IMO金牌水平，强；混合线性架构，快！

2026年2月，蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T。该模型在数学逻辑推理和长程自主执行能力上表现突出，获得IMO金牌水平35分、CMO超国家集训队线105分的优异成绩，并在搜索、编码等复杂任务中展现高效能力。通过混合线性注意力架构，Ring-2.5-1T打破深度思考与推理速度、显存消耗的“不可能三角”，生成吞吐量提升3倍以上，访存规模降至1/10以下。模型已适配Claude Code、OpenClaw框架，并在Hugging Face、ModelScope等平台开源。此外，蚂蚁同期发布LLaDA2.1扩散语言模型和全模态大模型Ming-flash-omni-2.0，进一步推动多模态技术落地。这一系列更新展现了蚂蚁在AI领域的顶尖实力和技术底蕴。

原文链接

数据炼金师

02-14 12:14:17

IMO金牌水平

全模态大模型

混合线性架构

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁集团发布Ming-Flash-Omni 2.0，开源全模态大模型性能新标杆

2月11日，蚂蚁集团发布开源全模态大模型Ming-Flash-Omni 2.0，在视觉语言理解、语音生成、图像编辑等领域表现突出，部分指标超越Gemini 2.5 Pro，成为开源性能新标杆。该模型支持语音、音效、音乐同轨生成，并可通过自然语言精细控制音频参数，实现分钟级长音频实时生成。基于Ling-2.0架构训练，其在复杂对象识别、动态场景编辑等方面显著优化，具备零样本音色克隆与定制能力。团队表示，全模态技术通过统一架构提升多模态能力融合效率，未来将优化视频理解与长音频生成等方向。目前，模型权重与代码已在Hugging Face等平台开源，用户也可通过Ling Studio在线体验调用。

原文链接

数据炼金师

02-13 14:21:14

Ming-Flash-Omni 2.0

全模态大模型

蚂蚁集团

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0

2026年2月11日，蚂蚁集团开源发布了全模态大模型Ming-Flash-Omni 2.0。这是业界首个全场景音频统一生成模型，能够在同一条音轨中同时生成语音、环境音效与音乐。用户可通过自然语言指令，灵活控制音色、语速、语调、音量、情绪及方言等参数。该模型在推理阶段实现了3.1Hz的极低推理帧率，支持分钟级长音频的实时高保真生成，为音频内容创作提供了全新工具。（记者黄心怡）

原文链接

跨界思维

02-11 12:21:23

Ming-Flash-Omni 2.0

全模态大模型

蚂蚁集团

分享至

打开微信扫一扫

内容投诉

生成图片

阿里发布 Qwen3-Omni-Flash 全模态大模型，甜妹、御姐等 AI 人设风格任你选

2025年12月9日，阿里Qwen团队发布全新全模态大模型Qwen3-Omni-Flash-2025-12-01。新模型在文本、图像、音视频处理上实现无缝输入与实时流式输出，大幅提升多轮对话稳定性及语音自然度，支持自适应语速与韵律调节，拟人化表现逼近真人水平。新增System Prompt自定义功能，用户可设定“甜妹”“御姐”等人设风格，调整表达偏好与回复长度。同时，模型支持119种文本语言、19种语音识别语言和10种语音合成语言，跨语言交互更精准。性能方面，逻辑推理、代码生成及视觉问答等任务均有显著提升，进一步强化复杂指令理解能力，带来更智能的多模态体验。

原文链接