全模态 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

万亿思考模型新速度！蚂蚁开源Ring-2.5-1T：IMO金牌水平，强；混合线性架构，快！

2026年2月，蚂蚁集团发布全球首个开源混合线性架构万亿参数模型Ring-2.5-1T。该模型在数学逻辑推理和长程自主执行能力上表现突出，获得IMO金牌水平35分、CMO超国家集训队线105分的优异成绩，并在搜索、编码等复杂任务中展现高效能力。通过混合线性注意力架构，Ring-2.5-1T打破深度思考与推理速度、显存消耗的“不可能三角”，生成吞吐量提升3倍以上，访存规模降至1/10以下。模型已适配Claude Code、OpenClaw框架，并在Hugging Face、ModelScope等平台开源。此外，蚂蚁同期发布LLaDA2.1扩散语言模型和全模态大模型Ming-flash-omni-2.0，进一步推动多模态技术落地。这一系列更新展现了蚂蚁在AI领域的顶尖实力和技术底蕴。

原文链接

数据炼金师

02-14 12:14:17

IMO金牌水平

全模态大模型

混合线性架构

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁集团发布Ming-Flash-Omni 2.0，开源全模态大模型性能新标杆

2月11日，蚂蚁集团发布开源全模态大模型Ming-Flash-Omni 2.0，在视觉语言理解、语音生成、图像编辑等领域表现突出，部分指标超越Gemini 2.5 Pro，成为开源性能新标杆。该模型支持语音、音效、音乐同轨生成，并可通过自然语言精细控制音频参数，实现分钟级长音频实时生成。基于Ling-2.0架构训练，其在复杂对象识别、动态场景编辑等方面显著优化，具备零样本音色克隆与定制能力。团队表示，全模态技术通过统一架构提升多模态能力融合效率，未来将优化视频理解与长音频生成等方向。目前，模型权重与代码已在Hugging Face等平台开源，用户也可通过Ling Studio在线体验调用。

原文链接

数据炼金师

02-13 14:21:14

Ming-Flash-Omni 2.0

全模态大模型

蚂蚁集团

分享至

打开微信扫一扫

内容投诉

生成图片

蚂蚁集团开源发布全模态大模型 Ming-Flash-Omni 2.0

2026年2月11日，蚂蚁集团开源发布了全模态大模型Ming-Flash-Omni 2.0。这是业界首个全场景音频统一生成模型，能够在同一条音轨中同时生成语音、环境音效与音乐。用户可通过自然语言指令，灵活控制音色、语速、语调、音量、情绪及方言等参数。该模型在推理阶段实现了3.1Hz的极低推理帧率，支持分钟级长音频的实时高保真生成，为音频内容创作提供了全新工具。（记者黄心怡）

原文链接

跨界思维

02-11 12:21:23

Ming-Flash-Omni 2.0

全模态大模型

蚂蚁集团

分享至

打开微信扫一扫

内容投诉

生成图片

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

2026年2月，面壁智能开源全模态模型MiniCPM-o4.5，支持边看边听、主动抢答，实现即时自由对话。该模型采用全双工多模态实时流机制，可同步处理视频、音频输入与输出，突破传统AI的‘一问一答’模式，适用于复杂场景如超市导购、电梯提醒等。MiniCPM-o4.5以9B参数规模，在多模态理解、语音生成等领域达领先水平，专为端侧设计，强调隐私保护与低延迟。面壁智能计划推出配套硬件松果派开发板，预计年内上市，助力开发者快速构建端侧智能应用。公司聚焦端侧AI，致力于将端侧能力做到极致，推动端侧生态发展。

原文链接

数据炼金师

02-06 02:20:25

全模态模型

实时交互

端侧AI

分享至

打开微信扫一扫

内容投诉

生成图片

2.4万亿参数“最强文科生”，文心5.0正式版，你挺懂山东人啊？

2026年1月，文心大模型5.0正式版发布，参数量达2.4万亿，主打原生全模态能力。近三个月，其Preview版在全球大模型竞技场LMArena中多次拿下国产第一，1月8日视觉理解榜排名全球Top8，1月15日文本榜同样跻身全球Top8。文心5.0在创意写作、复杂指令遵循等任务中表现突出，综合评测超越Gemini-2.5-Pro和GPT-5-High等模型。其技术优势包括超大规模混合专家架构、全模态统一理解和生成能力，并通过百度飞桨实现高效训练与推理。目前，文心5.0已上线网页版、App及百度智能云千帆平台，应用场景涵盖电商直播、实时交互数字人等，展现出强大的产业落地潜力。

原文链接

幻彩逻辑RainbowLogic

01-23 22:15:24

全模态

文心5.0

最强文科生

分享至

打开微信扫一扫

内容投诉

生成图片

百度发布文心大模型5.0正式版

1月22日，百度正式发布文心大模型5.0正式版。该模型基于原生全模态建模，拥有2.4万亿参数，支持文本、图像、音频、视频等多模态信息的理解与输出。目前，文心5.0已上线百度千帆平台，并接入文心一言官网、百度慧播星及文心助手等百度AI产品，为用户提供更强大的技术支持与服务。（记者黄心怡）

原文链接

量子思考者

01-22 10:49:05

全模态建模

文心大模型5.0

百度

分享至

打开微信扫一扫

内容投诉

生成图片

智元机器人与MiniMax围绕全模态AI落地机器人开展合作

1月5日，智元机器人与MiniMax上海稀宇科技达成合作，共同推动全模态AI在机器人领域的落地应用。根据协议，MiniMax将为智元机器人提供文本到语音的全流程AI技术支持，并为其打造专属人设体系，优化语音交互体验。此外，MiniMax基于人设体系设计定制化提示词策略，生成个性化音色，实现千人千面的语音合成，满足多样化需求。同时，MiniMax利用自研音乐生成模型，助力智元机器人拓展娱乐场景功能。这一合作旨在提升用户交互体验，探索AI技术在机器人领域的更多可能性。（记者黄心怡）

原文链接

元界筑梦师

01-05 12:01:31

MiniMax

全模态AI

智元机器人

分享至

打开微信扫一扫

内容投诉

生成图片

火线解析MiniMax招股书！全球领先大模型成本只有OpenAI 1%，果然拳怕少壮

2025年12月，上海大模型独角兽MiniMax通过港交所聆讯，正式启动IPO冲刺。成立仅四年，MiniMax累计融资超15亿美元，吸引米哈游、阿里巴巴等知名机构投资。招股书显示，公司以5亿美元成本实现全模态能力全球领先，仅为OpenAI支出的1%。技术上，MiniMax在文本、语音、音乐和视频领域均取得突破，其M2模型推理速度是Claude 3.5 Sonnet两倍，API价格却仅为其8%。财务方面，2024年营收达3052万美元，同比增长782.2%，2025年前9个月营收再涨175%，达5344万美元，海外收入占比超70%。尽管仍处亏损，但毛利率从2023年的-24.7%提升至2025年前9个月的23.3%。团队年轻化，平均年龄29岁，研发人员占比73.8%，高效管理与AI工具助力公司快速崛起。

原文链接

跨界思维

12-22 00:10:24

AGI

MiniMax

全模态

分享至

打开微信扫一扫

内容投诉

生成图片

阿里发布 Qwen3-Omni-Flash 全模态大模型，甜妹、御姐等 AI 人设风格任你选

2025年12月9日，阿里Qwen团队发布全新全模态大模型Qwen3-Omni-Flash-2025-12-01。新模型在文本、图像、音视频处理上实现无缝输入与实时流式输出，大幅提升多轮对话稳定性及语音自然度，支持自适应语速与韵律调节，拟人化表现逼近真人水平。新增System Prompt自定义功能，用户可设定“甜妹”“御姐”等人设风格，调整表达偏好与回复长度。同时，模型支持119种文本语言、19种语音识别语言和10种语音合成语言，跨语言交互更精准。性能方面，逻辑推理、代码生成及视觉问答等任务均有显著提升，进一步强化复杂指令理解能力，带来更智能的多模态体验。

原文链接

小阳哥

12-11 09:38:42

全模态大模型

多语言能力

甜妹御姐人设

分享至

打开微信扫一扫

内容投诉

生成图片

青岛：国内首个支持全模态实时交互大模型发布

11月23日，青岛虚拟智能体产业大会暨人工智能创新应用先导区第七届“百企百景”对接洽谈会召开，会上发布国内首个支持全模态实时交互的大模型VisualGPT，并启动青岛市智能体训练平台。VisualGPT突破传统AI的“对话框”限制，实现从单一“文字流”到沉浸式“视觉界面直连”的跨越。智能体训练平台将整合算力与数据资源，聚焦多领域场景，推动产业升级与智能应用落地，为人工智能技术发展注入新动力。

原文链接