标题:全新开源模型Mini-o3复现多轮视觉推理,无需大量训练即可实现深度思考
正文:
OpenAI o3的多轮视觉推理能力现在有了开源替代方案——Mini-o3。与现有视觉语言模型(VLM)通常局限于1-2轮对话不同,Mini-o3在训练限制仅6轮的情况下,测试时可扩展到数十轮推理。这一模型由字节跳动和香港大学团队联合开发,通过恰当的数据、初始化方法和强化学习微调,实现了长周期视觉搜索能力。
Mini-o3突破了当前开源方案的局限,如推理方式单一、交互轮次受限等问题,能够完成长达数十步的深度推理,在高难度视觉搜索任务中表现优异。其核心设计包括:构建VisualProbe数据集,涵盖数千个复杂视觉搜索难题;开发迭代式数据收集流程,让模型学会多样化推理策略;以及提出超轮次掩码技术,避免对超长回复的惩罚,从而提升测试时的扩展性。
训练分为两个阶段:
1. 冷启动监督微调(SFT):通过少量人工示范样本生成高质量多轮推理轨迹,激活模型的多轮工具使用能力。
2. 强化学习(RL):降低图像像素限制以增加交互轮次,并引入超轮次掩码机制,防止模型因过早终止而限制性能。
研究团队还创建了挑战性视觉搜索数据集VisualProbe,包含4000个训练样本和500个测试样本,覆盖简单到困难任务。实验表明,Mini-o3在多个基准测试中显著超越现有模型,尤其在复杂任务中表现出色。
此外,研究发现冷启动SFT和超轮次掩码技术对模型性能至关重要,前者为多轮推理提供基础能力,后者则确保训练稳定性并支持测试时轮次扩展。合理调整最大像素预算也能平衡感知精度与交互深度。
Mini-o3的技术方案为多模态模型开发提供了实用指导,相关代码已开源。
作者团队包括赖昕和Junyi Li等六人,其中赖昕是字节跳动研究员,博士期间参与的项目在学术界和开源社区广受认可;Junyi Li目前为香港大学博士,曾参与被ECCV2024接收的PartGLEE项目。
参考链接:
- 论文:https://arxiv.org/abs/2509.07969
- 仓库:https://github.com/Mini-o3/Mini-o3
- 权重/设置:https://huggingface.co/Mini-o3
.png)

-
2025-09-15 21:02:02
-
2025-09-15 20:01:43
-
2025-09-15 19:01:32