首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

2025-06-09 18:31:59

灵感Phoenix

发布在

科普

阅读：379

标题：首创像素空间推理，7B模型领先GPT-4o，让VLM能像人类一样「眼脑并用」

视觉语言模型（VLM）正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力，展现了多模态交互的新潜力。然而，现有VLM大多依赖文本token间接处理视觉信息，难以应对高清图像中的微小物体或视频中的动态细节。

滑铁卢大学、港科大及中科大的研究团队首次提出「像素空间推理」（Pixel-Space Reasoning），将推理从文本空间扩展至像素空间。这一创新让VLM能够像人类一样「眼脑并用」，直接在像素级别理解视觉信息。

传统VLM需通过文本中介处理图像，容易导致关键信息丢失。「像素空间推理」赋予模型直接操作视觉数据的能力，包括视觉变焦和动态标记，从而实现更精确的推理。例如，在识别咖啡杯logo时，模型先定位桌面区域，再放大逐行扫描，最终提取特征，这种机制在复杂视频理解和具身导航中表现出色。

研究团队还设计了强化学习策略，通过内在好奇心激励和操作效率约束，帮助模型克服认知惰性，逐步适应新推理方式。在多项基准测试中，基于7B参数的Pixel-Reasoner表现优异，超越了更大规模的GPT-4o和Gemma3等模型，展示了「小模型大能力」的特点。

Pixel-Reasoner不仅是对现有技术的补充，更是开启多模态推理新时代的重要一步。未来，随着技术进步，机器将能更深入地理解世界。相关论文和模型试玩链接已公开。

原文链接

本文链接：https://kx.umi6.com/article/19927.html

转载请注明文章出处

VLM

像素空间推理

视觉语言模型

分享至

打开微信扫一扫

内容投诉

生成图片

灵感Phoenix

557 文章

262423 浏览

24小时热文