标题:港中文 MMLab × 美团新研究:一个模型解决多种视觉推理任务
正文:
在大模型迈向通用视觉智能的趋势中,单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务,这对跨任务和跨模态能力提出了更高要求。然而,现有方法多依赖任务专化模型,难以实现协同与知识共享,导致系统复杂且综合表现受限。
针对这一问题,香港中文大学多媒体实验室(MMLab)与美团联合推出了 OneThinker 多模态统一推理模型。该模型将图像与视频中的问答、描述、定位、跟踪和分割等任务统一为“先推理、后作答”的形式,并通过多任务强化学习优化整体性能。研究团队构建了大规模多任务数据集,并在图像与视频模态上进行了全面实验,验证了统一推理机制的可行性。
实验表明,OneThinker 在绝大多数任务中优于基础模型及现有开源方法,表现出稳定的性能优势。在图像问答任务中,它在数学推理、逻辑推断等复杂问题上尤为突出;在视频问答中,模型展现了强大的时间建模能力,尤其擅长长视频推理和事件级理解。此外,在描述生成、时空定位、目标跟踪和分割任务中,OneThinker 均取得了领先性能,证明其具备较强的综合建模能力。
研究还发现,强化学习对提升模型推理能力至关重要。相比仅使用监督微调或传统强化学习方法,论文提出的改进算法显著提升了模型表现。同时,OneThinker 在未训练的新任务上展现出良好的零样本泛化能力,说明统一训练有助于学习更通用的视觉推理知识。
为支持模型训练,研究团队构建了一个覆盖多种任务的大规模数据集,并引入带有推理过程标注的子数据集用于监督微调。所有任务均被统一表示为“先推理、后作答”,便于联合优化和奖励评估。通过基于指数滑动平均的归一化方法,不同任务在训练中获得平衡优化信号,避免了模型偏向特定任务。
总体而言,OneThinker 的设计思路展现了普适性,为通用视觉推理模型提供了清晰的技术路径。在自动驾驶、智能监控等实际场景中,统一模型在任务协同和系统复杂度控制上具有显著优势。未来,多模态通用模型的发展应更加关注任务建模方式、推理机制设计和训练策略优化,这些探索为多模态智能系统的研究提供了重要参考。
论文地址:https://arxiv.org/pdf/2512.03043v2
-
2025-12-17 17:58:49 -
2025-12-17 17:57:42 -
2025-12-17 17:56:35