值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相CNCC2024

2024-10-25 13:46:03

DreamCoder

发布在

科普

阅读：624

标题：值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相CNCC2024

10月24-26日，2024中国计算机大会（简称CNCC2024）在横店召开。在24日的“AI+影视创作超级论坛”上，中国人民大学高瓴人工智能学院长聘副教授宋睿华介绍了与值得买科技合作的首个研究成果《TiVA: Time-aligned Video-to-Audio Generation》（《TiVA：时序同步的视频到音频生成》），详细阐述了该技术如何显著提升AIGC内容生成的质量和智能化水平。

此次大会由中国计算机学会主办，是中国计算领域最大规模、最具影响力的学术和技术交流活动。大会以“发展新质生产力，计算引领未来”为主题，汇聚了众多国内外计算机领域专家和业界领袖。

《TiVA: Time-aligned Video-to-Audio Generation》于今年7月被国际多媒体学术会议（ACM International Conference on Multimedia 2024，简称ACM MM 2024）录用，并被选为口头报告。此外，该研究成果已获得国家发明专利授权（专利名称：音频生成方法、视频生成方法、装置、设备和介质，公开号ZL 202410613827.3）。

早在2023年6月，值得买科技与中国人民大学高瓴人工智能学院达成合作，聚焦大模型、AI内容创作等内容研究。除了TiVA，双方还将发布面向电商领域的共享基座检索增强架构（BSharedRAG）、多模态知识增强的视觉信息查询（MuKA）等多个AI研究成果。

TiVA专注于多模态内容创作和交互领域，解决了视频和音频同步生成的技术难题。通过引入音频布局概念，TiVA实现了视频内容到音频的高质量生成。宋睿华解释说，通过低分辨率的Mel频谱图表示音频的粗粒度语义和时间信息，帮助模型更好地理解和预测声音的起始和结束时间，从而实现更精确的时间对齐。

在研究过程中，值得买科技提供了必要的算力支持和高质量脱敏数据支持，平台积累的真实用户图文、视频素材和用户行为数据也提供了真实的消费互联网验证场景。实验结果表明，TiVA在提高语义匹配和精确时间同步的同时，将生成速度提高了约40%。

宋睿华强调，合作不仅在技术上取得突破，还架起了学术研究与实际应用之间的桥梁。值得买科技始终致力于提升供需两端的连接效率，此次合作成果进一步提升了内容创作水平。

值得买科技还发布了全面AI战略，基于AI升级现有业务和产品，重塑内容生产流程，构建了由“1个大模型、2个数据库、3个引擎、4类应用”组成的AI产品矩阵。此外，值得买科技积极连接外部多领域合作伙伴，共建“AI+兴趣”双轮驱动的消费生态，共同推动AI生态创新协同发展。

未来，值得买科技将继续与更多合作伙伴携手，共同探索AI在学术、技术和商业上的创新和应用，为创造消费信息自由流动的美好世界贡献力量。

原文链接

本文链接：https://kx.umi6.com/article/7864.html

转载请注明文章出处

AI内容创作