字节迭代多模态大模型媲美谷歌新品智能体能力更强、推理成本更低

2025-05-13 15:57:01

灵感Phoenix

发布在

快讯

阅读：916

5月13日，《科创板日报》报道，字节跳动Seed团队发布视觉-语言多模态大模型Seed1.5-VL。该模型在超3Ttokens的多模态数据上预训练，具备强通用多模态理解和推理能力，且推理成本低。尽管其参数仅20B，但在60个评测基准中38个达到SOTA表现，尤其在视频和GUI任务中表现优异。与谷歌Gemini 2.5 Pro相比，Seed1.5-VL在部分任务中性能相当，但成本更低。模型在视觉定位、计数及GUI交互上有突出表现，但目标计数、复杂空间关系解析及视频动作推理等方面仍有不足。目前，Seed1.5-VL已通过火山引擎开放API供用户体验。国内外大厂纷纷布局多模态技术，全球AI竞争激烈，算力需求随之增长。

原文链接

本文链接：https://kx.umi6.com/article/18530.html

转载请注明文章出处

多模态大模型