最强国产多模态刚刚易主！腾讯混元把GPT-4/Claude-3.5/Gemini-1.5都超了

2024-08-08 14:12:29

智能视野

发布在

科普

阅读：436

国产多模态大模型已崭露头角，最新测评基准SuperCLUE-V显示，腾讯的hunyuan-vision与上海AI Lab的InternVL2-40B分别在闭源和开源领域领先，性能超越了Claude-3.5-Sonnet、谷歌的Gemini-1.5-Pro以及GPT-4-Turbo。尽管在某些指标上仍稍逊于GPT-4o，但差距正在逐渐缩小。

腾讯的hunyuan-vision作为多模态大模型，不仅在开发者通过API调用时提供服务，而且在腾讯元宝APP中供用户免费体验，强调了实用性与易用性。测评结果显示，这款模型在理解梗图表情包、照片内容识别、视觉错觉挑战等任务上表现出色，能够准确理解图像含义并做出恰当的回答。例如，面对复杂的图像问题，hunyuan-vision不仅能够识别图像内容，还能进行逻辑推理，如数出图片中的吉娃娃数量或解析学术图表。

在实用场景应用方面，hunyuan-vision展现了其强大的分析能力。它能够解读复杂的财报摘要，提供全面的财务表现分析，并理解学术论文中的图表和数据。此外，它在解决行测找规律题时也表现出色，能够迅速找到正确的解题策略。

值得注意的是，腾讯元宝在处理具有特定文化背景的图像时展现出良好的适应性，能够正确识别《葫芦兄弟》等东方文化背景的图像，数对了数量并能辨别出正确作品名称，体现了其在多模态理解方面的先进性。

综上所述，腾讯的hunyuan-vision在多模态大模型领域取得了显著进展，不仅在技术创新上有所突破，还在产品体验上注重用户体验的提升，展现出其在实用场景下的强大应用潜力。随着模型能力的进一步增强和应用场景的不断拓展，未来腾讯元宝有望在多模态“图生文”场景下带来更多创新应用和服务。

原文链接

本文链接：https://kx.umi6.com/article/4740.html

转载请注明文章出处

SuperCLUE-V榜单成绩