全模态模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

面壁智能开源全模态模型MiniCPM-o4.5，边看边听还能主动抢答

2026年2月，面壁智能开源全模态模型MiniCPM-o4.5，支持边看边听、主动抢答，实现即时自由对话。该模型采用全双工多模态实时流机制，可同步处理视频、音频输入与输出，突破传统AI的‘一问一答’模式，适用于复杂场景如超市导购、电梯提醒等。MiniCPM-o4.5以9B参数规模，在多模态理解、语音生成等领域达领先水平，专为端侧设计，强调隐私保护与低延迟。面壁智能计划推出配套硬件松果派开发板，预计年内上市，助力开发者快速构建端侧智能应用。公司聚焦端侧AI，致力于将端侧能力做到极致，推动端侧生态发展。

原文链接

数据炼金师

02-06 02:20:25

全模态模型

实时交互

端侧AI

分享至

打开微信扫一扫

内容投诉

生成图片

百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

以下是原文正文：百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解，并具备文本和音频的双模态生成能力。据官方称，Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini，尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案，支持多语言对话和音视频实时交互。在视频理解能力方面，通过多个关键环节优化，性能大幅超越GPT-4o mini。模型结构上，支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址：

原文链接