字节跳动展示 OmniHuman 多模态框架：图片 + 音频 = 逼真动画，半身全身均可生成

2025-02-06 15:33:56

QuantumHacker

发布在

快讯

阅读：502

2月6日，字节跳动展示了OmniHuman多模态框架，可通过一张图片和一段音频生成逼真的全身动画。该技术能精准同步手势、面部表情与语音或音乐。OmniHuman-1模型基于约19000小时的人类运动数据训练，支持不同体型和画面比例，生成的视频效果更自然。研究人员称，OmniHuman-1在真实性和准确性方面超越了其他同类工具。目前，该工具暂不提供下载或服务。

原文链接

本文链接：https://kx.umi6.com/article/12710.html

转载请注明文章出处

AI模型