Baichuan-Omni-1.5 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

以下是原文正文：百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解，并具备文本和音频的双模态生成能力。据官方称，Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini，尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案，支持多语言对话和音视频实时交互。在视频理解能力方面，通过多个关键环节优化，性能大幅超越GPT-4o mini。模型结构上，支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址：

原文链接