一张图0.1秒生成上半身3D化身！清华IDEA新框架入选ICCV 2025

2025-08-21 16:34:56

AI幻想空间站

发布在

科普

阅读：25

一张图0.1秒生成上半身3D化身！清华IDEA新框架入选ICCV 2025

清华大学与粤港澳大湾区数字经济研究院（IDEA）的研究团队提出了一种全新框架GUAVA，仅需单张图像和0.1秒即可生成逼真的上半身3D化身，并支持实时动画和渲染。该研究已被ICCV 2025接收。

创建包含细致面部表情和丰富手势的上半身3D模型，在电影、游戏和虚拟会议等领域具有重要价值，但传统方法通常依赖多视角视频或针对个体单独训练，效率低下且难以满足实时需求。GUAVA突破了这些限制，首次实现了从单张图像生成高质量、可驱动的上半身3D高斯化身。相比基于扩散模型的2D方法，GUAVA利用3D高斯技术确保更好的身份一致性（ID Consistency），并引入富有表现力的人体模型EHM（Expressive Human Model）以捕捉细腻的面部表情和手势细节。此外，GUAVA结合逆纹理映射技术和神经渲染器，进一步提升了渲染质量和效率。

GUAVA的核心创新包括：
1. EHM模型与精确跟踪：融合SMPLX和FLAME模型，改进面部表情捕捉能力，并通过两阶段追踪方法实现精准的姿态和表情估计；
2. 快速重建与双分支设计：通过“模板高斯”和“UV高斯”两个分支分别预测几何结构和纹理细节，完成高效重建；
3. 实时动画与渲染：支持根据新姿势参数生成动画，并通过神经细化器优化渲染效果。

实验表明，GUAVA在自重演（self-reenactment）和跨重演（cross-reenactment）场景中均优于现有2D和3D方法。与2D方法相比，GUAVA在PSNR、SSIM等图像质量指标上表现最佳，动画速度达50 FPS；与3D方法相比，其重建时间仅为0.1秒，远快于其他方法的数分钟至数小时。此外，GUAVA在极端姿势和未见区域的表现尤为出色，展现出更强的鲁棒性和泛化能力。

目前，GUAVA的代码已开源，感兴趣者可通过以下链接了解更多信息：
论文地址: https://arxiv.org/pdf/2505.03351
项目主页：https://eastbeanzhang.github.io/GUAVA/
开源代码：https://github.com/Pixel-Talk/GUAVA
视频Demo: https://www.bilibili.com/video/BV1k45AzaEpW/

原文链接

本文链接：https://kx.umi6.com/article/23949.html

转载请注明文章出处

3D高斯化身