RAM——复杂场景下多人3D人体运动重建新框架

2026-04-24 14:15:34

RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026

心智奇点

发布在

科普

阅读：18

标题：RAM——复杂场景下多人3D人体运动重建新框架 | CVPR 2026

正文：
从视频中重建人体3D运动是计算机视觉的重要方向，广泛应用于体育分析、VR/AR、人机交互和医疗康复等领域。然而，在复杂场景中，这一任务面临三大挑战：身份关联不稳定（频繁遮挡导致ID切换）、运动轨迹中断（视角变化或遮挡造成跟踪丢失）以及重建结果不连续（逐帧处理难以维持时间维度稳定性）。针对这些问题，北京理工大学联合华盛顿大学、安徽大学等机构提出了一种新方法RAM（Recover Any Motion），相关论文《RAM: Recover Any 3D Human Motion in-the-Wild》已被CVPR 2026接收。

RAM框架包含四个核心模块：
1. SegFollow模块：基于卡尔曼滤波的运动建模机制，减少对外观特征的依赖，即使在严重遮挡或外观剧变时也能保持稳定的身份跟踪，降低ID切换率。
2. T-HMR模块：利用时间记忆机制和Transformer结构，从邻近帧中提取关键特征进行跨时间信息融合，生成平滑且一致的3D人体结构，解决重建不连续问题。
3. 动作预测模块：基于历史运动序列预测未来姿态，尤其在目标完全遮挡时，通过预测维持运动序列的连续性。
4. 自适应融合模块：动态调整当前帧重建结果与预测结果的权重，根据信息可靠性实现最优融合。

亮点总结：
1. RAM首次将目标跟踪、时序三维重建与动作预测整合到统一框架，充分利用跨帧时序信息，突破传统流水线局限。
2. 在PoseTrack等复杂场景数据集上，RAM展现出强大的零样本泛化能力，无需额外训练即可显著超越现有方法。
3. 引入时间记忆与动作预测机制，使模型更接近人类动态认知过程，为视频理解领域提供了重要启示。

原文链接：https://arxiv.org/abs/2603.19929
解读来源：https://cloud.tencent.com/developer/article/2658222

原文链接

本文链接：https://kx.umi6.com/article/35165.html

转载请注明文章出处

3D人体运动重建