1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒

新加坡国立大学、南洋理工大学、香港科技大学与上海人工智能实验室联合发布 EgoTwin,首次实现了第一视角视频与人体动作的联合生成,解决了视角-动作对齐与因果耦合两大难题,为可穿戴计算、AR及具身智能开辟了新方向。

EgoTwin 是一个基于扩散模型的框架,能够以一致的视角和连贯的因果关系生成第一人称视角视频与人体动作。生成的视频可通过人体动作推导出的相机位姿,利用 3D 高斯点渲染提升到三维场景中。

核心挑战:第一视角生成的“两难困境”

第一视角视频由人体动作驱动,头部运动决定相机轨迹,全身动作影响场景变化,二者高度耦合。传统方法难以适配这一特性,主要面临两大难题: 1. 视角对齐难题:相机轨迹需与头部运动精准匹配,但现有方法多依赖预设参数,无法动态生成。 2. 因果交互难题:视觉画面与人体动作存在闭环依赖,要求模型捕捉时序因果关联。

三大创新破解难题

EgoTwin 基于扩散 Transformer 架构,提出以下关键设计: 1. 以头部为中心的动作表征:直接将动作锚定在头部关节,避免误差累积,确保视角对齐。 2. 控制论启发的交互机制:通过结构化掩码实现视频与动作的双向因果交互,捕捉动态闭环。 3. 异步扩散训练框架:针对视频与动作模态差异,采用独立采样时间步并融合,平衡效率与质量。

实验验证:性能全面超越基线

EgoTwin 支持多种生成模式,包括根据文本生成视频与动作、根据动作生成视频等。实验表明,其视频与动作匹配度显著提升,镜头与头部位置误差减小,手部动作更精确对应。消融实验证明三大创新缺一不可。

EgoTwin 缩小了跨模态误差,为可穿戴交互、AR 内容创作及具身智能体仿真提供了实用工具。

论文地址:https://arxiv.org/abs/2508.13013
项目主页与示例:https://egotwin.pages.dev

原文链接
本文链接:https://kx.umi6.com/article/26165.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
首次实现第一视角视频与人体动作同步生成!新框架攻克视角-动作对齐两大技术壁垒
2025-10-01 10:41:43
河南省人工智能行业赋能中心工作座谈会在郑州召开
2025-09-30 15:29:50
满屏 AI 换脸,OpenAI 新应用 Sora 遭自家研究员吐槽
2025-10-02 11:08:52
“AI 女演员”闯荡好莱坞,美国演员工会发声明抵制
2025-10-02 08:05:08
事关下一代大模型!斯坦福顶尖1%科学家许主洪加盟阿里通义
2025-09-30 12:26:16
Stability AI前CEO惊人预测:人类智力价值归零,只剩1000天!
2025-09-30 17:31:15
对AI的质疑,是“自欺欺人”?
2025-09-30 12:26:05
智谱 CEO 张鹏:到 2030 年完全实现超级 AI 的可能性不大
2025-09-30 19:31:37
科大讯飞成立科技新公司 含AI软件开发业务
2025-09-30 14:29:32
“旧经济”,正在缓缓落幕
2025-09-30 10:25:05
谁是2025年度最好的编程语言?
2025-10-01 10:42:36
英伟达一口气开源多项机器人技术,与迪士尼合作的物理引擎也开源
2025-10-02 12:10:18
九章云极率先完成DeepSeek-V3.2-Exp适配,提供安全高效部署方案
2025-09-30 16:29:13
24小时热文
更多
扫一扫体验小程序