标题:RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026
正文:
从视频中重建人体3D运动是计算机视觉的重要方向,广泛应用于体育分析、VR/AR、人机交互和医疗康复等领域。然而,在复杂场景中,这一任务面临三大挑战:身份关联不稳定(频繁遮挡导致ID切换)、运动轨迹中断(视角变化或遮挡造成跟踪丢失)以及重建结果不连续(逐帧处理难以维持时间维度稳定性)。针对这些问题,北京理工大学联合华盛顿大学、安徽大学等机构提出了一种新方法RAM(Recover Any Motion),相关论文《RAM: Recover Any 3D Human Motion in-the-Wild》已被CVPR 2026接收。
RAM框架包含四个核心模块:
1. SegFollow模块:基于卡尔曼滤波的运动建模机制,减少对外观特征的依赖,即使在严重遮挡或外观剧变时也能保持稳定的身份跟踪,降低ID切换率。
2. T-HMR模块:利用时间记忆机制和Transformer结构,从邻近帧中提取关键特征进行跨时间信息融合,生成平滑且一致的3D人体结构,解决重建不连续问题。
3. 动作预测模块:基于历史运动序列预测未来姿态,尤其在目标完全遮挡时,通过预测维持运动序列的连续性。
4. 自适应融合模块:动态调整当前帧重建结果与预测结果的权重,根据信息可靠性实现最优融合。
亮点总结:
1. RAM首次将目标跟踪、时序三维重建与动作预测整合到统一框架,充分利用跨帧时序信息,突破传统流水线局限。
2. 在PoseTrack等复杂场景数据集上,RAM展现出强大的零样本泛化能力,无需额外训练即可显著超越现有方法。
3. 引入时间记忆与动作预测机制,使模型更接近人类动态认知过程,为视频理解领域提供了重要启示。
原文链接:https://arxiv.org/abs/2603.19929
解读来源:https://cloud.tencent.com/developer/article/2658222
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33