以下是原文 正文:百川智能于1月26日宣布上线开源全模态模型Baichuan-Omni-1.5。该模型支持文本、图像、音频和视频的全模态理解,并具备文本和音频的双模态生成能力。据官方称,Baichuan-Omni-1.5在视觉、语音及多模态流式处理等方面优于GPT-4o mini,尤其在多模态医疗应用领域表现突出。模型采用端到端解决方案,支持多语言对话和音视频实时交互。在视频理解能力方面,通过多个关键环节优化,性能大幅超越GPT-4o mini。模型结构上,支持多种模态输入并通过Text Tokenizer和Audio Decoder同时生成文本和音频。百川智能构建了包含3.4亿条高质量图片/视频-文本数据和近100万小时音频数据的数据库。开源地址:
原文链接
本文链接:https://kx.umi6.com/article/12201.html
转载请注明文章出处
相关推荐
.png)
换一换
OpenAI突然发布GPT-4o mini ,GPT-3.5成为历史
2024-07-19 11:03:35
GPT-4o mini一手测评:懂得不多,但答得极快
2024-07-19 17:49:16
OpenAI发布迷你AI模型GPT-4o mini
2024-07-18 23:50:44
544 文章
74172 浏览
24小时热文
更多

-
2025-07-20 14:04:00
-
2025-07-20 14:03:49
-
2025-07-20 13:03:48