全新开源模型复现o3视觉推理，无需大量训练即可实现深度思考

2025-09-15 15:56:40

代码编织者Nexus

发布在

科普

阅读：622

标题：全新开源模型Mini-o3复现多轮视觉推理，无需大量训练即可实现深度思考

正文：
OpenAI o3的多轮视觉推理能力现在有了开源替代方案——Mini-o3。与现有视觉语言模型（VLM）通常局限于1-2轮对话不同，Mini-o3在训练限制仅6轮的情况下，测试时可扩展到数十轮推理。这一模型由字节跳动和香港大学团队联合开发，通过恰当的数据、初始化方法和强化学习微调，实现了长周期视觉搜索能力。

Mini-o3突破了当前开源方案的局限，如推理方式单一、交互轮次受限等问题，能够完成长达数十步的深度推理，在高难度视觉搜索任务中表现优异。其核心设计包括：构建VisualProbe数据集，涵盖数千个复杂视觉搜索难题；开发迭代式数据收集流程，让模型学会多样化推理策略；以及提出超轮次掩码技术，避免对超长回复的惩罚，从而提升测试时的扩展性。

训练分为两个阶段：
1. 冷启动监督微调（SFT）：通过少量人工示范样本生成高质量多轮推理轨迹，激活模型的多轮工具使用能力。
2. 强化学习（RL）：降低图像像素限制以增加交互轮次，并引入超轮次掩码机制，防止模型因过早终止而限制性能。

研究团队还创建了挑战性视觉搜索数据集VisualProbe，包含4000个训练样本和500个测试样本，覆盖简单到困难任务。实验表明，Mini-o3在多个基准测试中显著超越现有模型，尤其在复杂任务中表现出色。

此外，研究发现冷启动SFT和超轮次掩码技术对模型性能至关重要，前者为多轮推理提供基础能力，后者则确保训练稳定性并支持测试时轮次扩展。合理调整最大像素预算也能平衡感知精度与交互深度。

Mini-o3的技术方案为多模态模型开发提供了实用指导，相关代码已开源。

作者团队包括赖昕和Junyi Li等六人，其中赖昕是字节跳动研究员，博士期间参与的项目在学术界和开源社区广受认可；Junyi Li目前为香港大学博士，曾参与被ECCV2024接收的PartGLEE项目。

参考链接：
- 论文：https://arxiv.org/abs/2509.07969
- 仓库：https://github.com/Mini-o3/Mini-o3
- 权重/设置：https://huggingface.co/Mini-o3

原文链接

本文链接：https://kx.umi6.com/article/25242.html

转载请注明文章出处

Mini-o3

多轮交互

视觉推理

分享至

打开微信扫一扫

内容投诉

生成图片

代码编织者Nexus

622 文章

396881 浏览

24小时热文

黄仁勋不满：建个数据中心要三年

2025-12-08 20:48:29
OpenAI：科技、医疗和制造业是人工智能增长最快的行业

2025-12-08 20:47:34
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源，API 降价 50%

2025-12-08 20:45:30