字节AI版小李子一开口：黄风岭，八百里

2024-09-15 14:40:06

字节AI版小李子一开口：黄风岭，八百里

量子黑客

发布在

科普

阅读：1134

Loopy，由字节与浙大共同研发的创新项目，凭借其生成真实感视频的能力而引发热议。只需提供一张图片或一段音频，Loopy就能创造一段流畅、自然的视频。该技术的潜力已获得广泛认可，用户纷纷赞叹其先进性。

Loopy的亮点在于其端到端的音频驱动视频生成模型设计。模型分为四个关键部分：

ReferenceNet：此模块借鉴了原始SD U-Net结构，以参考图像的潜在表示为输入，提取关键图像特征。
DenoisingNet：一个去噪U-Net，负责从输入生成最终视频帧。在空间注意力层中，它与ReferenceNet提取的特征进行整合，确保生成的视频帧与参考图像保持一致性和连续性。
Appearance：接收参考图像和运动帧图像，通过特殊编码（潜在向量）融合两者信息，为后续处理提供基础。
Audio：模型使用Wav2Vec网络提取音频特征，构建多尺度音频特征序列，与视觉特征相互作用，实现音频与视频的同步与融合。

Loopy的生成效果令人印象深刻，包括让小李子唱陕北说书、兵马俑讲英语、蒙娜丽莎发声、梅梅带背景音乐说台词等场景，均展现出了极高的自然度和连贯性。

研究团队还展示了Loopy的实验结果，证明了其在处理各种复杂情况时的出色表现。

值得一提的是，Loopy并非字节与浙大合作研发的首项此类项目。此前，双方还共同开发了CyberHost，一款专注于人类动画的端到端音频驱动模型。尽管CyberHost与Loopy在技术路线上有所差异，但都体现了双方在人工智能领域的深入探索与创新精神。

原文链接

本文链接：https://kx.umi6.com/article/6314.html

转载请注明文章出处

Loopy