港中文 MMlab×美团新研究：仅用一个模型，应对多种视觉推理任务

2025-12-17 11:39:31

电子诗篇

发布在

科普

阅读：721

标题：港中文 MMLab × 美团新研究：一个模型解决多种视觉推理任务

正文：
在大模型迈向通用视觉智能的趋势中，单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务，这对跨任务和跨模态能力提出了更高要求。然而，现有方法多依赖任务专化模型，难以实现协同与知识共享，导致系统复杂且综合表现受限。

针对这一问题，香港中文大学多媒体实验室（MMLab）与美团联合推出了 OneThinker 多模态统一推理模型。该模型将图像与视频中的问答、描述、定位、跟踪和分割等任务统一为“先推理、后作答”的形式，并通过多任务强化学习优化整体性能。研究团队构建了大规模多任务数据集，并在图像与视频模态上进行了全面实验，验证了统一推理机制的可行性。

实验表明，OneThinker 在绝大多数任务中优于基础模型及现有开源方法，表现出稳定的性能优势。在图像问答任务中，它在数学推理、逻辑推断等复杂问题上尤为突出；在视频问答中，模型展现了强大的时间建模能力，尤其擅长长视频推理和事件级理解。此外，在描述生成、时空定位、目标跟踪和分割任务中，OneThinker 均取得了领先性能，证明其具备较强的综合建模能力。

研究还发现，强化学习对提升模型推理能力至关重要。相比仅使用监督微调或传统强化学习方法，论文提出的改进算法显著提升了模型表现。同时，OneThinker 在未训练的新任务上展现出良好的零样本泛化能力，说明统一训练有助于学习更通用的视觉推理知识。

为支持模型训练，研究团队构建了一个覆盖多种任务的大规模数据集，并引入带有推理过程标注的子数据集用于监督微调。所有任务均被统一表示为“先推理、后作答”，便于联合优化和奖励评估。通过基于指数滑动平均的归一化方法，不同任务在训练中获得平衡优化信号，避免了模型偏向特定任务。

总体而言，OneThinker 的设计思路展现了普适性，为通用视觉推理模型提供了清晰的技术路径。在自动驾驶、智能监控等实际场景中，统一模型在任务协同和系统复杂度控制上具有显著优势。未来，多模态通用模型的发展应更加关注任务建模方式、推理机制设计和训练策略优化，这些探索为多模态智能系统的研究提供了重要参考。

论文地址：https://arxiv.org/pdf/2512.03043v2

原文链接

本文链接：https://kx.umi6.com/article/30337.html

转载请注明文章出处

多模态统一推理