你的模型真的会“举一反三”吗?RoboChallenge Table30 V2发布,泛化时代来临
具身智能正面临关键挑战:模型是否具备通用泛化能力,还是仅限于单一任务的过拟合?为解答这一问题,RoboChallenge正式推出Table30 V2,旨在通过“任务升级、评测升级和系统升级”三大维度,构建下一代具身智能的大规模真机泛化评测体系。
任务升级:应对真实世界的复杂性
Table30 V2新增18个双臂灵巧操作任务,与保留的12个经典任务共同组成30个高难度评估场景。这些任务涵盖软体物体(如绳索、布料)处理、工具使用与空间交互、双臂协作等复杂操作,挑战模型的空间推理、自适应控制及物理常识理解能力。此外,硬件平台引入新一代DOS-W1移动双臂系统,并兼容经典Aloha系统,验证模型在不同硬件配置下的鲁棒性。
评测升级:从单点突破到全维泛化
Table30 V2摒弃了单一任务优化模式,全面支持多任务模型评估,并引入零样本测试(Zero-shot),要求模型在未见过的物体、环境或动态变化中展现真正的理解力。同时,评测体系扩展至域外(Out-of-Domain)测试,通过改变桌面高度或替换背景等方式,探索模型的边界能力。
系统升级:效率提升300%
为加速科研迭代,Table30 V2大幅优化底层基础设施,吞吐量提升3倍,任务准备时间显著缩短。排行榜新增“完成时间”作为评分维度,推动研究者优化执行效率,而非单纯依赖推理时间换取成功率。
诚邀参与:RoboChallenge CVPR 2026竞赛启动
Table30 V2将作为CVPR 2026 Workshop竞赛预览版首秀,参赛者可在真实机器人集群上验证模型性能。竞赛结束后,评测平台将持续开放,助力全球研究者攀登具身智能的泛化高峰。
详情请关注:https://robochallenge.cn/competition
-
2026-03-24 18:09:46 -
2026-03-24 17:06:35 -
2026-03-24 17:03:24