
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
以下是原文
正文:百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解,并具备文本和音频的双模态生成能力。据官方称,Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini,尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案,支持多语言对话和音视频实时交互。在视频理解能力方面,通过多个关键环节优化,性能大幅超越GPT-4o mini。模型结构上,支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址:
原文链接
加载更多

暂无内容