代码驱动的视觉感知：为什么说「看得懂代码」才是大模型攻克理科题的真正钥匙｜CVPR 2026

2026-05-19 17:47:34

镜像现实MirageX

发布在

科普

阅读：984

标题：代码驱动的视觉感知：大模型攻克理科题的关键

正文：
近年来，多模态大模型在STEM领域的研究多聚焦于推理能力的提升，但一个尴尬的事实是，当面对需要看图解答的几何题时，模型的表现往往不尽如人意。上海交通大学与Qwen团队联合提出的CodePercept（代码驱动的视觉感知）揭示了一个重要问题：当前限制大模型在STEM视觉推理任务中的瓶颈并非推理能力，而是视觉感知能力。

研究团队通过将STEM视觉推理任务分解为“感知”和“推理”两个阶段，分别扩展其中一个能力并保持另一个不变，结果表明，提升感知能力对性能的改善远优于优化推理能力。换句话说，模型的“眼神”比“脑子”更需要改进。

传统方法中，自然语言常被用来描述图像内容，但其表达能力有限，难以精确描述复杂的几何结构。相比之下，代码具有数学层面的精确性，能够通过执行验证描述的准确性。基于此，CodePercept提出了一种全新范式：让代码成为视觉感知的“第二语言”。

CodePercept从两个维度重新定义了视觉感知任务：一是“代码驱动的描述生成”，即通过生成可执行代码来验证图像理解；二是“STEM图像到代码转录”，直接引导模型从图像生成复现该图像的Python代码。这种二值化的反馈机制迫使模型建立更精确的视觉理解。

为了支持这一新范式，团队构建了包含100万个高质量三元组（图像-描述-代码）的ICC-1M数据集，并设计了两阶段训练策略：第一阶段通过监督微调同时优化“看图写描述”和“看图写代码”两条路径；第二阶段引入强化学习，通过三层递增奖励机制确保代码的精确性。

此外，团队推出了STEM2Code-Eval基准，要求模型生成能100%还原图像的代码，并进行像素级比对。实验结果显示，CodePercept即使在小参数模型上也能超越大规模模型的感知能力。

CodePercept的意义不仅在于技术突破，更在于方法论的转向：用代码作为视觉感知的锚点，重新定义了“视觉理解”的目标。未来，代码可能成为视觉理解的标准工具，为大模型装上基于代码逻辑的“火眼金睛”。

原文链接

本文链接：https://kx.umi6.com/article/35982.html

转载请注明文章出处

STEM

代码驱动

视觉感知

分享至

打开微信扫一扫

内容投诉

生成图片

镜像现实MirageX

719 文章

773089 浏览

24小时热文

五分之一的孩子正在让渡思考：他们更希望用AI解决问题

2026-07-21 20:22:01
WAIC重磅成果｜上海仪电智算牵头成立“智算系统架构联盟”并发布《超节点系统架构规范》

2026-07-21 18:21:18
WAIC重磅成果｜上海市教育算力专区正式开启试运行

2026-07-21 18:19:37