1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港中文 MMLab × 美团新研究:一个模型解决多种视觉推理任务

正文:
在大模型迈向通用视觉智能的趋势中,单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务,这对跨任务和跨模态能力提出了更高要求。然而,现有方法多依赖任务专化模型,难以实现协同与知识共享,导致系统复杂且综合表现受限。

针对这一问题,香港中文大学多媒体实验室(MMLab)与美团联合推出了 OneThinker 多模态统一推理模型。该模型将图像与视频中的问答、描述、定位、跟踪和分割等任务统一为“先推理、后作答”的形式,并通过多任务强化学习优化整体性能。研究团队构建了大规模多任务数据集,并在图像与视频模态上进行了全面实验,验证了统一推理机制的可行性。

实验表明,OneThinker 在绝大多数任务中优于基础模型及现有开源方法,表现出稳定的性能优势。在图像问答任务中,它在数学推理、逻辑推断等复杂问题上尤为突出;在视频问答中,模型展现了强大的时间建模能力,尤其擅长长视频推理和事件级理解。此外,在描述生成、时空定位、目标跟踪和分割任务中,OneThinker 均取得了领先性能,证明其具备较强的综合建模能力。

研究还发现,强化学习对提升模型推理能力至关重要。相比仅使用监督微调或传统强化学习方法,论文提出的改进算法显著提升了模型表现。同时,OneThinker 在未训练的新任务上展现出良好的零样本泛化能力,说明统一训练有助于学习更通用的视觉推理知识。

为支持模型训练,研究团队构建了一个覆盖多种任务的大规模数据集,并引入带有推理过程标注的子数据集用于监督微调。所有任务均被统一表示为“先推理、后作答”,便于联合优化和奖励评估。通过基于指数滑动平均的归一化方法,不同任务在训练中获得平衡优化信号,避免了模型偏向特定任务。

总体而言,OneThinker 的设计思路展现了普适性,为通用视觉推理模型提供了清晰的技术路径。在自动驾驶、智能监控等实际场景中,统一模型在任务协同和系统复杂度控制上具有显著优势。未来,多模态通用模型的发展应更加关注任务建模方式、推理机制设计和训练策略优化,这些探索为多模态智能系统的研究提供了重要参考。

论文地址:https://arxiv.org/pdf/2512.03043v2

原文链接
本文链接:https://kx.umi6.com/article/30337.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务
2025-12-17 11:39:31
青岛“十五五”规划建议:加快新一代海洋科学卫星、海洋综合试验场等布局建设
2025-12-17 09:33:19
商汤发布 AI 办公智能体小浣熊 3.0:一键生成高质量 PPT、百万量级数据秒处理
2025-12-16 17:51:55
CoreWeave AI数据中心项目延期 算力产能交付遇阻暴露运营漏洞
2025-12-16 22:04:02
智谷天厨完成数千万元A轮融资,啟赋资本投资
2025-12-16 12:36:27
覆盖多个前沿领域 2025年我国牵头制定国际标准275项
2025-12-16 17:55:05
OpenAI首席传播官将离职
2025-12-16 12:39:41
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
何小鹏:当前没有AI泡沫 未来AI市场有巨大机遇
2025-12-17 13:43:34
联想集团第三届ESG 与社会价值论坛召开,聚焦时代命题,共创可持续发展新路径
2025-12-16 18:55:28
纽约联储行长威廉姆斯称目前的货币政策已为2026年做好充分准备
2025-12-16 01:11:08
全国教师管理信息系统今日升级上线,融入 AI 与大数据技术
2025-12-17 15:55:30
小米网页 AI 聊天服务惊喜亮相,MiMo-V2-Flash 模型发布、代码能力开源最强
2025-12-17 00:07:31
24小时热文
更多
扫一扫体验小程序