标题:首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
视觉语言模型(VLM)正在从「感知」迈向「认知」的关键阶段。OpenAI的o3系列通过「图像思维」赋予模型标注视觉区域的能力,展现了多模态交互的新潜力。然而,现有VLM大多依赖文本token间接处理视觉信息,难以应对高清图像中的微小物体或视频中的动态细节。
滑铁卢大学、港科大及中科大的研究团队首次提出「像素空间推理」(Pixel-Space Reasoning),将推理从文本空间扩展至像素空间。这一创新让VLM能够像人类一样「眼脑并用」,直接在像素级别理解视觉信息。
传统VLM需通过文本中介处理图像,容易导致关键信息丢失。「像素空间推理」赋予模型直接操作视觉数据的能力,包括视觉变焦和动态标记,从而实现更精确的推理。例如,在识别咖啡杯logo时,模型先定位桌面区域,再放大逐行扫描,最终提取特征,这种机制在复杂视频理解和具身导航中表现出色。
研究团队还设计了强化学习策略,通过内在好奇心激励和操作效率约束,帮助模型克服认知惰性,逐步适应新推理方式。在多项基准测试中,基于7B参数的Pixel-Reasoner表现优异,超越了更大规模的GPT-4o和Gemma3等模型,展示了「小模型大能力」的特点。
Pixel-Reasoner不仅是对现有技术的补充,更是开启多模态推理新时代的重要一步。未来,随着技术进步,机器将能更深入地理解世界。相关论文和模型试玩链接已公开。
原文链接
本文链接:https://kx.umi6.com/article/19927.html
转载请注明文章出处
相关推荐
.png)
换一换
北大清华等联合发布 LLaVA-o1:首个自发性视觉 AI 模型,推理计算 Scaling 新思路
2024-11-19 11:41:37
9B“小”模型干了票“大”的:性能超8倍参数模型,拿下23项SOTA | 智谱开源
2025-07-02 13:05:58
Hugging Face 最小 AI 视觉语言模型登场:2.56 亿参数,内存低于 1GB PC 也能驾驭
2025-01-24 11:41:33
Hugging Face 推出号称“世界上最小的视觉语言模型”SmolVLM-256M
2025-01-26 21:16:45
太可怕了!AI大模型已学会人类空间思考能力
2025-06-22 22:18:27
首创像素空间推理,7B模型领先GPT-4o,让VLM能像人类一样「眼脑并用」
2025-06-09 18:31:59
谷歌 DeepMind 发布 WebLI-100B:千亿级数据集解锁 AI 视觉语言模型的文化多样性
2025-02-14 15:43:06
视觉语言模型安全升级,还不牺牲性能!技术解读一文看懂|淘天MMLab南大重大出品
2025-01-17 12:16:08
AI们数不清六根手指,这事没那么简单
2025-07-11 11:37:35
无需参数访问!CMU用大模型自动优化视觉语言提示词 | CVPR’24
2024-11-07 10:13:00
只需将感知推理能力拆分,2B大模型就能战胜20B,国产新框架高效处理视觉任务
2024-07-03 04:26:59
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
刚刚,小红书开源了首个多模态大模型dots.vlm1,性能直追SOTA!
2025-08-08 16:14:57
514 文章
186588 浏览
24小时热文
更多

-
2025-09-08 21:06:20
-
2025-09-08 21:05:04
-
2025-09-08 21:03:50