首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布 EgoTwin,首次实现了第一视角视频与人体动作的联合生成,解决了视角-动作对齐与因果耦合两大难题,为可穿戴计算、AR及具身智能开辟了新方向。
EgoTwin 是一个基于扩散模型的框架,能够以一致的视角和连贯的因果关系生成第一人称视角视频与人体动作。生成的视频可通过人体动作推导出的相机位姿,利用 3D 高斯点渲染提升到三维场景中。
核心挑战:第一视角生成的“两难困境”
第一视角视频由人体动作驱动,头部运动决定相机轨迹,全身动作影响场景变化,二者高度耦合。传统方法难以适配这一特性,主要面临两大难题: 1. 视角对齐难题:相机轨迹需与头部运动精准匹配,但现有方法多依赖预设参数,无法动态生成。 2. 因果交互难题:视觉画面与人体动作存在闭环依赖,要求模型捕捉时序因果关联。
三大创新破解难题
EgoTwin 基于扩散 Transformer 架构,提出以下关键设计: 1. 以头部为中心的动作表征:直接将动作锚定在头部关节,避免误差累积,确保视角对齐。 2. 控制论启发的交互机制:通过结构化掩码实现视频与动作的双向因果交互,捕捉动态闭环。 3. 异步扩散训练框架:针对视频与动作模态差异,采用独立采样时间步并融合,平衡效率与质量。
实验验证:性能全面超越基线
EgoTwin 支持多种生成模式,包括根据文本生成视频与动作、根据动作生成视频等。实验表明,其视频与动作匹配度显著提升,镜头与头部位置误差减小,手部动作更精确对应。消融实验证明三大创新缺一不可。
EgoTwin 缩小了跨模态误差,为可穿戴交互、AR 内容创作及具身智能体仿真提供了实用工具。
论文地址:https://arxiv.org/abs/2508.13013
项目主页与示例:https://egotwin.pages.dev
.png)

-
2025-10-02 16:19:49
-
2025-10-02 16:18:37
-
2025-10-02 16:17:29