英伟达 NVLM 1.0 引领多模态 AI 变革：媲美 GPT-4o，不牺牲性能平衡文本和图像处理难题

2024-09-21 13:14:42

梦境编程师

发布在

快讯

阅读：1

英伟达(Nvidia)于9月20日发布论文，介绍其最新研发的多模态大语言模型系列NVLM 1.0。这一系列模型包括NVLM-D、NVLM-X和NVLM-H三种架构，旨在解决文本和图像处理之间的平衡难题。NVLM 1.0在训练过程中加入高质量纯文本监督微调数据，使其在视觉语言任务中表现出色，同时保持甚至提高纯文本性能。NVLM-D采用统一方式处理文本和图像，NVLM-X和NVLM-H则分别结合了NVLM-D的解码器优势和NVLM-X的高分辨率图像处理能力。NVLM 1.0在多项基准测试中表现出色，特别是在MATH、GSM8K等纯文本任务中，以及VQAv2、AI2D等视觉问题解答和推理任务中，其准确率分别达到了93.6%和87.4%。NVLM模型在OCR相关任务中也表现出色，准确率分别达到了87.4%和81.7%。这一系列模型的成功表明英伟达在多模态人工智能领域的领先地位，为未来的自动驾驶等应用提供了可能。

原文链接

本文链接：https://kx.umi6.com/article/6580.html

转载请注明文章出处

多模态 AI 变革