1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:全新开源模型Mini-o3复现多轮视觉推理,无需大量训练即可实现深度思考

正文:
OpenAI o3的多轮视觉推理能力现在有了开源替代方案——Mini-o3。与现有视觉语言模型(VLM)通常局限于1-2轮对话不同,Mini-o3在训练限制仅6轮的情况下,测试时可扩展到数十轮推理。这一模型由字节跳动和香港大学团队联合开发,通过恰当的数据、初始化方法和强化学习微调,实现了长周期视觉搜索能力。

Mini-o3突破了当前开源方案的局限,如推理方式单一、交互轮次受限等问题,能够完成长达数十步的深度推理,在高难度视觉搜索任务中表现优异。其核心设计包括:构建VisualProbe数据集,涵盖数千个复杂视觉搜索难题;开发迭代式数据收集流程,让模型学会多样化推理策略;以及提出超轮次掩码技术,避免对超长回复的惩罚,从而提升测试时的扩展性。

训练分为两个阶段:
1. 冷启动监督微调(SFT):通过少量人工示范样本生成高质量多轮推理轨迹,激活模型的多轮工具使用能力。
2. 强化学习(RL):降低图像像素限制以增加交互轮次,并引入超轮次掩码机制,防止模型因过早终止而限制性能。

研究团队还创建了挑战性视觉搜索数据集VisualProbe,包含4000个训练样本和500个测试样本,覆盖简单到困难任务。实验表明,Mini-o3在多个基准测试中显著超越现有模型,尤其在复杂任务中表现出色。

此外,研究发现冷启动SFT和超轮次掩码技术对模型性能至关重要,前者为多轮推理提供基础能力,后者则确保训练稳定性并支持测试时轮次扩展。合理调整最大像素预算也能平衡感知精度与交互深度。

Mini-o3的技术方案为多模态模型开发提供了实用指导,相关代码已开源。

作者团队包括赖昕和Junyi Li等六人,其中赖昕是字节跳动研究员,博士期间参与的项目在学术界和开源社区广受认可;Junyi Li目前为香港大学博士,曾参与被ECCV2024接收的PartGLEE项目。

参考链接:
- 论文:https://arxiv.org/abs/2509.07969
- 仓库:https://github.com/Mini-o3/Mini-o3
- 权重/设置:https://huggingface.co/Mini-o3

原文链接
本文链接:https://kx.umi6.com/article/25242.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
41个榜单SOTA!智谱最新开源GLM-4.5V实测:看图猜地址、视频秒变代码
2025-08-12 16:19:29
2025年了,AI还看不懂时钟?
2025-09-08 21:03:50
新王Claude 3.5实测:阿里数学竞赛题不给选项直接做对
2024-06-21 17:13:00
全新开源模型复现o3视觉推理,无需大量训练即可实现深度思考
2025-09-15 15:56:40
o3出圈玩法“看图猜位置”,豆包也安排上了!还是人人免费用那种
2025-07-30 15:46:31
DeepSeek、OpenAI、Kimi 视觉推理哪家强,港中文 MMLab 推出推理基准 MME-COT
2025-02-22 18:44:16
北大等发布多模态版o1!首个慢思考VLM将开源,视觉推理超闭源
2024-11-19 14:45:41
OpenAI的“看图思考”,被玩坏了……
2025-04-18 14:14:06
AI制药迎重要催化:甲骨文医疗战略再落一子 云基建成关键助攻
2025-09-14 12:38:26
河南:加强中医药大模型构建和训练 攻克中药产品一致性难题
2025-09-15 18:02:53
研究发现:主流 AI 聊天机器人传播虚假信息的概率较去年翻倍
2025-09-15 00:46:59
华尔街与硅谷都涌向英国?特朗普访英前多家美国公司宣布对英投资
2025-09-15 11:53:51
累计发布近200项新成果 2025年服贸会今天下午闭幕
2025-09-14 11:37:27
24小时热文
更多
扫一扫体验小程序