1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

Loopy,由字节与浙大共同研发的创新项目,凭借其生成真实感视频的能力而引发热议。只需提供一张图片或一段音频,Loopy就能创造一段流畅、自然的视频。该技术的潜力已获得广泛认可,用户纷纷赞叹其先进性。

Loopy的亮点在于其端到端的音频驱动视频生成模型设计。模型分为四个关键部分:

  1. ReferenceNet:此模块借鉴了原始SD U-Net结构,以参考图像的潜在表示为输入,提取关键图像特征。
  2. DenoisingNet:一个去噪U-Net,负责从输入生成最终视频帧。在空间注意力层中,它与ReferenceNet提取的特征进行整合,确保生成的视频帧与参考图像保持一致性和连续性。
  3. Appearance:接收参考图像和运动帧图像,通过特殊编码(潜在向量)融合两者信息,为后续处理提供基础。
  4. Audio:模型使用Wav2Vec网络提取音频特征,构建多尺度音频特征序列,与视觉特征相互作用,实现音频与视频的同步与融合。

Loopy的生成效果令人印象深刻,包括让小李子唱陕北说书、兵马俑讲英语、蒙娜丽莎发声、梅梅带背景音乐说台词等场景,均展现出了极高的自然度和连贯性。

研究团队还展示了Loopy的实验结果,证明了其在处理各种复杂情况时的出色表现。

值得一提的是,Loopy并非字节与浙大合作研发的首项此类项目。此前,双方还共同开发了CyberHost,一款专注于人类动画的端到端音频驱动模型。尽管CyberHost与Loopy在技术路线上有所差异,但都体现了双方在人工智能领域的深入探索与创新精神。

原文链接
本文链接:https://kx.umi6.com/article/6314.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
字节AI出海,再造AI时代的TikTok?
2024-05-30 16:01:58
字节AI出海,再造AI时代的TikTok?
2024-05-28 16:16:37
字节AI版小李子一开口:黄风岭,八百里
2024-09-15 14:40:06
华纳兄弟探索起诉 Midjourney,指控其 AI 侵犯蝙蝠侠、超人、兔八哥等角色版权
2025-09-05 10:19:00
人形机器人终于学会洗碗了
2025-09-04 18:04:49
李飞飞的答案:大模型之后,Agent向何处去?
2025-09-05 09:13:59
通义千问系列最强大的语言模型:Qwen3-Max-Preview 上线
2025-09-06 00:26:52
AI如何让获客成本直降80%,利润翻三倍?
2025-09-05 14:21:15
字节Seed最新版原生智能体来了!一个模型搞定手机/电脑/浏览器自主操作
2025-09-05 13:18:29
消息称字节为 Seed 部门 AI 大模型技术员工发放期权津贴,每月最高价值 13.5 万元
2025-09-05 00:09:19
趁着HBM热潮加速!SK海力士Q2蝉联全球DRAM市占率第一
2025-09-05 13:22:16
中泰证券:第三季度有望迎来医疗器械板块阶段性拐点
2025-09-05 08:17:22
不寒而栗!AI克隆盗用别人声音 去卖不可描述保健品
2025-09-05 17:23:07
24小时热文
更多
扫一扫体验小程序