1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:港中文 MMLab × 美团新研究:一个模型解决多种视觉推理任务

正文:
在大模型迈向通用视觉智能的趋势中,单一任务或模态的方法已面临瓶颈。现实中的视觉系统需完成问答、视频理解、目标定位、描述生成等多样化任务,这对跨任务和跨模态能力提出了更高要求。然而,现有方法多依赖任务专化模型,难以实现协同与知识共享,导致系统复杂且综合表现受限。

针对这一问题,香港中文大学多媒体实验室(MMLab)与美团联合推出了 OneThinker 多模态统一推理模型。该模型将图像与视频中的问答、描述、定位、跟踪和分割等任务统一为“先推理、后作答”的形式,并通过多任务强化学习优化整体性能。研究团队构建了大规模多任务数据集,并在图像与视频模态上进行了全面实验,验证了统一推理机制的可行性。

实验表明,OneThinker 在绝大多数任务中优于基础模型及现有开源方法,表现出稳定的性能优势。在图像问答任务中,它在数学推理、逻辑推断等复杂问题上尤为突出;在视频问答中,模型展现了强大的时间建模能力,尤其擅长长视频推理和事件级理解。此外,在描述生成、时空定位、目标跟踪和分割任务中,OneThinker 均取得了领先性能,证明其具备较强的综合建模能力。

研究还发现,强化学习对提升模型推理能力至关重要。相比仅使用监督微调或传统强化学习方法,论文提出的改进算法显著提升了模型表现。同时,OneThinker 在未训练的新任务上展现出良好的零样本泛化能力,说明统一训练有助于学习更通用的视觉推理知识。

为支持模型训练,研究团队构建了一个覆盖多种任务的大规模数据集,并引入带有推理过程标注的子数据集用于监督微调。所有任务均被统一表示为“先推理、后作答”,便于联合优化和奖励评估。通过基于指数滑动平均的归一化方法,不同任务在训练中获得平衡优化信号,避免了模型偏向特定任务。

总体而言,OneThinker 的设计思路展现了普适性,为通用视觉推理模型提供了清晰的技术路径。在自动驾驶、智能监控等实际场景中,统一模型在任务协同和系统复杂度控制上具有显著优势。未来,多模态通用模型的发展应更加关注任务建模方式、推理机制设计和训练策略优化,这些探索为多模态智能系统的研究提供了重要参考。

论文地址:https://arxiv.org/pdf/2512.03043v2

原文链接
本文链接:https://kx.umi6.com/article/30337.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
港中文 MMlab×美团新研究:仅用一个模型,应对多种视觉推理任务
2025-12-17 11:39:31
GPT-5.4发布:OpenAI首个大一统模型,简直是龙虾原生
2026-03-06 09:42:29
农业农村部部长韩俊:目前智能采摘机器人、智能灌溉机器人、AI激光除草机器人等已在农业上开始使用
2026-03-09 11:34:34
俄研究机构训练人工智能识别早期乳腺癌
2026-03-07 11:27:53
周鸿祎:只有通过多智能体协作 才能让人工智能真正落地
2026-03-07 21:02:28
超算互联网:OpenClaw正式打通飞书、企业微信
2026-03-09 14:48:46
深圳龙岗拟出台措施 支持OpenClaw&OPC发展
2026-03-08 17:26:26
美以伊冲突社媒充斥大量AI图像 画面真假难辨
2026-03-06 20:34:53
龙虾最佳适配模型,OpenClaw之父给出了推荐
2026-03-09 12:35:13
全国人大代表杭迎伟:打造水务全产业链机器人矩阵
2026-03-06 19:29:11
彻底告别VE与VAE!商汤硬核重构多模态:砍掉所有中间编码器
2026-03-07 13:31:18
腾讯版“小龙虾”WorkBuddy正式上线
2026-03-09 15:52:31
首个物理AI数据基座平台“无垠”落户浙江,专治机器人数据荒,家庭工业商业场景全覆盖
2026-03-09 19:00:56
24小时热文
更多
扫一扫体验小程序