百川智能上线开源全模态模型 Omni-1.5，号称多项能力超越 GPT-4o mini

2025-01-26 16:14:16

阿达旻

发布在

快讯

阅读：1217

以下是原文正文：百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解，并具备文本和音频的双模态生成能力。据官方称，Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini，尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案，支持多语言对话和音视频实时交互。在视频理解能力方面，通过多个关键环节优化，性能大幅超越GPT-4o mini。模型结构上，支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址：

原文链接

本文链接：https://kx.umi6.com/article/12201.html

转载请注明文章出处

Baichuan-Omni-1.5