Loopy,由字节与浙大共同研发的创新项目,凭借其生成真实感视频的能力而引发热议。只需提供一张图片或一段音频,Loopy就能创造一段流畅、自然的视频。该技术的潜力已获得广泛认可,用户纷纷赞叹其先进性。
Loopy的亮点在于其端到端的音频驱动视频生成模型设计。模型分为四个关键部分:
- ReferenceNet:此模块借鉴了原始SD U-Net结构,以参考图像的潜在表示为输入,提取关键图像特征。
- DenoisingNet:一个去噪U-Net,负责从输入生成最终视频帧。在空间注意力层中,它与ReferenceNet提取的特征进行整合,确保生成的视频帧与参考图像保持一致性和连续性。
- Appearance:接收参考图像和运动帧图像,通过特殊编码(潜在向量)融合两者信息,为后续处理提供基础。
- Audio:模型使用Wav2Vec网络提取音频特征,构建多尺度音频特征序列,与视觉特征相互作用,实现音频与视频的同步与融合。
Loopy的生成效果令人印象深刻,包括让小李子唱陕北说书、兵马俑讲英语、蒙娜丽莎发声、梅梅带背景音乐说台词等场景,均展现出了极高的自然度和连贯性。
研究团队还展示了Loopy的实验结果,证明了其在处理各种复杂情况时的出色表现。
值得一提的是,Loopy并非字节与浙大合作研发的首项此类项目。此前,双方还共同开发了CyberHost,一款专注于人类动画的端到端音频驱动模型。尽管CyberHost与Loopy在技术路线上有所差异,但都体现了双方在人工智能领域的深入探索与创新精神。
原文链接
本文链接:https://kx.umi6.com/article/6314.html
转载请注明文章出处
相关推荐
换一换
字节AI出海,再造AI时代的TikTok?
2024-05-28 16:16:37
Sora2还在5秒打转,字节AI生视频已经4分钟“起飞”
2025-10-06 14:37:37
字节AI出海,再造AI时代的TikTok?
2024-05-30 16:01:58
国产之“光”爆单!AI算力需求太猛:光纤光缆企业订单排到2027年
2026-06-04 00:45:08
扣子3.0实测:手机就能远程遥控你电脑里的Agent
2026-06-04 09:58:01
有人靠CPU把AI算力密度卷到了新高度
2026-06-05 22:17:47
教你用AI一节课收17万,华尔街精英排着队付费
2026-06-07 11:28:34
ARM CEO:美对华禁运AI CPU几乎不可能!比禁GPU难多了
2026-06-03 16:29:54
CVPR 2026完美落幕!D4RT封神最佳论文、牛津VGG两连冠,中国本科生泰坦显卡逆袭引爆全网
2026-06-08 16:37:30
AI“吹大”的美股泡沫有多大?高盛:确有过热 但未至历史极端水平
2026-06-08 16:35:40
100亿砸向人形,不如先让10万台机器狗走进家庭
2026-06-05 16:04:29
戴盟机器人完成亿元融资,阿里通义多模态大牛加盟攻关物理世界模型
2026-06-04 13:03:29
苹果抨击“为AI而AI”:真正有用的AI需以用户为中心
2026-06-09 07:06:40
721 文章
716836 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08