1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

英伟达(Nvidia)于9月20日发布论文,介绍其最新研发的多模态大语言模型系列NVLM 1.0。这一系列模型包括NVLM-D、NVLM-X和NVLM-H三种架构,旨在解决文本和图像处理之间的平衡难题。NVLM 1.0在训练过程中加入高质量纯文本监督微调数据,使其在视觉语言任务中表现出色,同时保持甚至提高纯文本性能。NVLM-D采用统一方式处理文本和图像,NVLM-X和NVLM-H则分别结合了NVLM-D的解码器优势和NVLM-X的高分辨率图像处理能力。NVLM 1.0在多项基准测试中表现出色,特别是在MATH、GSM8K等纯文本任务中,以及VQAv2、AI2D等视觉问题解答和推理任务中,其准确率分别达到了93.6%和87.4%。NVLM模型在OCR相关任务中也表现出色,准确率分别达到了87.4%和81.7%。这一系列模型的成功表明英伟达在多模态人工智能领域的领先地位,为未来的自动驾驶等应用提供了可能。

原文链接
本文链接:https://kx.umi6.com/article/6580.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
生成式 AI 大举进军游戏开发行业,Steam 上架作品中使用量激增 8 倍
2025-07-17 21:29:18
工信部:上半年数字产业完成业务收入同比增长9.3% 增速较上年同期提高3.4个百分点
2025-07-18 15:42:40
谷歌推出AI商务通话功能
2025-07-18 10:38:36
24小时热文
更多
扫一扫体验小程序