1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

阿里国际AI团队发布多模态大模型Ovis,该模型在图像理解任务上表现出色,达到行业领先水平。Ovis具备处理多种类型数据的能力,包括文本、图像等,相较于大型语言模型,其优势在于同时处理非文本数据。在多项具体任务中,Ovis取得了SOTA(最新技术)表现,如数学推理问答、物体识别、文本提取及复杂任务决策。

Ovis模型具有五大核心优点: 1. 创新架构设计:引入可学习的视觉嵌入词表,将连续的视觉特征转换为概率化的视觉token,生成结构化的视觉嵌入,提高多模态任务表现。 2. 高效图像处理:采用动态子图方案,支持处理各种比例的图像,兼容高分辨率图像,增强图像理解能力。 3. 全面数据优化:覆盖Caption、VQA、OCR、Table、Chart等多模态数据方向,显著提升多模态问答、指令跟随等任务效果。 4. 卓越模型性能:在多模态权威综合评测中取得第一,特别是在数学问答方向媲美70B参数模型,在幻觉等任务中,生成文本质量更高。 5. 开源可商用:Ovis系列模型采用Apache 2.0许可,提供全面的开源代码和权重,便于复现与商用。

多模态大模型在AI领域的应用广泛,涉及自动驾驶、医疗诊断、视频内容理解、图像描述生成、视觉问答等多个领域。阿里国际AI团队在去年成立后,已在40多个电商场景测试AI能力,覆盖跨境电商全链路,包括商品图文、营销、搜索等,并帮助50万中小商家优化1亿款商品信息。随着商家对AI需求的增长,每两个月调用量翻倍。

Ovis模型相关资源: - 论文:arXiv - Github:Ovis - Huggingface:Ovis1.6-Gemma2-9B - Demo:Ovis1.6-Gemma2-9B

原文链接
本文链接:https://kx.umi6.com/article/6475.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
杭州的爆发是偶然吗?
2025-02-08 10:17:56
OpenAI 将进行 12 场直播:一大堆东西要发布
2024-12-05 08:55:36
今年的AI制药到底怎么了
2024-09-04 10:16:41
24小时热文
更多
扫一扫体验小程序