标题:代码驱动的视觉感知:大模型攻克理科题的关键
正文:
近年来,多模态大模型在STEM领域的研究多聚焦于推理能力的提升,但一个尴尬的事实是,当面对需要看图解答的几何题时,模型的表现往往不尽如人意。上海交通大学与Qwen团队联合提出的CodePercept(代码驱动的视觉感知)揭示了一个重要问题:当前限制大模型在STEM视觉推理任务中的瓶颈并非推理能力,而是视觉感知能力。
研究团队通过将STEM视觉推理任务分解为“感知”和“推理”两个阶段,分别扩展其中一个能力并保持另一个不变,结果表明,提升感知能力对性能的改善远优于优化推理能力。换句话说,模型的“眼神”比“脑子”更需要改进。
传统方法中,自然语言常被用来描述图像内容,但其表达能力有限,难以精确描述复杂的几何结构。相比之下,代码具有数学层面的精确性,能够通过执行验证描述的准确性。基于此,CodePercept提出了一种全新范式:让代码成为视觉感知的“第二语言”。
CodePercept从两个维度重新定义了视觉感知任务:一是“代码驱动的描述生成”,即通过生成可执行代码来验证图像理解;二是“STEM图像到代码转录”,直接引导模型从图像生成复现该图像的Python代码。这种二值化的反馈机制迫使模型建立更精确的视觉理解。
为了支持这一新范式,团队构建了包含100万个高质量三元组(图像-描述-代码)的ICC-1M数据集,并设计了两阶段训练策略:第一阶段通过监督微调同时优化“看图写描述”和“看图写代码”两条路径;第二阶段引入强化学习,通过三层递增奖励机制确保代码的精确性。
此外,团队推出了STEM2Code-Eval基准,要求模型生成能100%还原图像的代码,并进行像素级比对。实验结果显示,CodePercept即使在小参数模型上也能超越大规模模型的感知能力。
CodePercept的意义不仅在于技术突破,更在于方法论的转向:用代码作为视觉感知的锚点,重新定义了“视觉理解”的目标。未来,代码可能成为视觉理解的标准工具,为大模型装上基于代码逻辑的“火眼金睛”。
-
2026-05-19 17:50:55 -
2026-05-19 17:49:48 -
2026-05-19 17:48:43