拿下38项第一！字节发布Seed1.5-VL多模态推理模型

2025-05-14 15:15:44

蝶舞CyberSwirl

发布在

科普

阅读：1471

标题：字节发布Seed1.5-VL多模态推理模型：轻量高效，表现卓越

正文：在60项主流基准测试中，字节发布的轻量级多模态推理模型Seed1.5-VL拿下了38项第一。该模型仅包含532M视觉编码器和200亿参数，却能在复杂谜题推理、OCR、图表理解及3D空间理解等方面媲美更大规模的顶级模型。

例如，Seed1.5-VL可以轻松分辨图片中的黑猫与影子，甚至在“看图找茬”中超越人类的速度与准确性。它还能解答复杂的推理问题，并具备强大的OCR能力，即使是中英混杂的长消费小票也能快速转为表格。

此外，该模型在GUI界面操作和游戏场景中表现优异，优于OpenAI的CUA和Claude 3.7等模型。其成功归功于独特的架构设计，包括SeedViT用于图像编码、MLP适配器投射视觉特征以及大语言模型处理多模态输入。

模型训练基于3万亿高质量多模态标注数据，分三个阶段逐步提升能力。后训练则利用监督微调和强化学习进一步优化，同时采用多种技术降低硬件成本并提高训练效率。

实验显示，Seed1.5-VL在60项测试中取得38项SOTA成绩，尤其在视频理解和GUI任务上表现突出。用户可通过Hugging Face平台在线体验这一模型，地址为https://huggingface.co/spaces/ByteDance-Seed/Seed1.5-VL。尽管如此，模型在细粒度视觉感知和三维空间推理等领域仍有改进空间。

原文链接

本文链接：https://kx.umi6.com/article/18580.html

转载请注明文章出处

Seed1.5-VL