阿里国际AI团队发布多模态大模型Ovis,该模型在图像理解任务上表现出色,达到行业领先水平。Ovis具备处理多种类型数据的能力,包括文本、图像等,相较于大型语言模型,其优势在于同时处理非文本数据。在多项具体任务中,Ovis取得了SOTA(最新技术)表现,如数学推理问答、物体识别、文本提取及复杂任务决策。
Ovis模型具有五大核心优点: 1. 创新架构设计:引入可学习的视觉嵌入词表,将连续的视觉特征转换为概率化的视觉token,生成结构化的视觉嵌入,提高多模态任务表现。 2. 高效图像处理:采用动态子图方案,支持处理各种比例的图像,兼容高分辨率图像,增强图像理解能力。 3. 全面数据优化:覆盖Caption、VQA、OCR、Table、Chart等多模态数据方向,显著提升多模态问答、指令跟随等任务效果。 4. 卓越模型性能:在多模态权威综合评测中取得第一,特别是在数学问答方向媲美70B参数模型,在幻觉等任务中,生成文本质量更高。 5. 开源可商用:Ovis系列模型采用Apache 2.0许可,提供全面的开源代码和权重,便于复现与商用。
多模态大模型在AI领域的应用广泛,涉及自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等多个领域。阿里国际AI团队在去年成立后,已在40多个电商场景测试AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索等,并帮助50万中小商家优化1亿款商品信息。随着商家对AI需求的增长,每两个月调用量翻倍。
Ovis模型相关资源: - 论文:arXiv - Github:Ovis - Huggingface:Ovis1.6-Gemma2-9B - Demo:Ovis1.6-Gemma2-9B
原文链接
本文链接:https://kx.umi6.com/article/6475.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里国际 Marco 翻译大模型发布:支持中英日韩西法等 15 种主流语言
2024-10-16 13:27:30
阿里国际张凯夫:跨境商家AI调用量每两个月翻一倍
2024-07-16 23:40:48
阿里国际翻译大模型达成大规模商用,效果和成本全面领先业界
2024-10-16 13:25:22
阿里国际发布首个大规模商用翻译大模型
2024-10-16 13:30:38
当下,阿里国际某个指标每两个月就翻一倍
2024-07-20 14:13:21
阿里国际 AI 解决方案日均调用量达 10 亿次,核心技术均已开源
2025-07-27 12:59:45
阿里国际AI agent——Marco日均调用量已达10亿次
2025-07-27 12:01:48
阿里国际发布最新开源多模态模型Ovis,多模态能力再升级
2024-09-19 11:41:01
阿里国际举办全球电商挑战赛:三名新加坡大二学生夺冠
2024-09-05 14:16:51
国内开店卷不动,换上AI出海试试
2024-07-17 17:17:17
阿里国际启动大规模招聘:AI人才占比达80%
2025-04-07 17:08:10
阿里国际将推出首个AI驱动的B2B搜索引擎
2024-08-02 13:23:17
AI如何让获客成本直降80%,利润翻三倍?
2025-09-05 14:21:15
534 文章
183348 浏览
24小时热文
更多

-
2025-09-06 12:37:21
-
2025-09-06 12:37:03
-
2025-09-06 12:36:04