1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:值得买科技与人大高瓴人工智能学院首个多模态领域联合研究成果亮相CNCC2024

10月24-26日,2024中国计算机大会(简称CNCC2024)在横店召开。在24日的“AI+影视创作超级论坛”上,中国人民大学高瓴人工智能学院长聘副教授宋睿华介绍了与值得买科技合作的首个研究成果《TiVA: Time-aligned Video-to-Audio Generation》(《TiVA:时序同步的视频到音频生成》),详细阐述了该技术如何显著提升AIGC内容生成的质量和智能化水平。

此次大会由中国计算机学会主办,是中国计算领域最大规模、最具影响力的学术和技术交流活动。大会以“发展新质生产力,计算引领未来”为主题,汇聚了众多国内外计算机领域专家和业界领袖。

《TiVA: Time-aligned Video-to-Audio Generation》于今年7月被国际多媒体学术会议(ACM International Conference on Multimedia 2024,简称ACM MM 2024)录用,并被选为口头报告。此外,该研究成果已获得国家发明专利授权(专利名称:音频生成方法、视频生成方法、装置、设备和介质,公开号ZL 202410613827.3)。

早在2023年6月,值得买科技与中国人民大学高瓴人工智能学院达成合作,聚焦大模型、AI内容创作等内容研究。除了TiVA,双方还将发布面向电商领域的共享基座检索增强架构(BSharedRAG)、多模态知识增强的视觉信息查询(MuKA)等多个AI研究成果。

TiVA专注于多模态内容创作和交互领域,解决了视频和音频同步生成的技术难题。通过引入音频布局概念,TiVA实现了视频内容到音频的高质量生成。宋睿华解释说,通过低分辨率的Mel频谱图表示音频的粗粒度语义和时间信息,帮助模型更好地理解和预测声音的起始和结束时间,从而实现更精确的时间对齐。

在研究过程中,值得买科技提供了必要的算力支持和高质量脱敏数据支持,平台积累的真实用户图文、视频素材和用户行为数据也提供了真实的消费互联网验证场景。实验结果表明,TiVA在提高语义匹配和精确时间同步的同时,将生成速度提高了约40%。

宋睿华强调,合作不仅在技术上取得突破,还架起了学术研究与实际应用之间的桥梁。值得买科技始终致力于提升供需两端的连接效率,此次合作成果进一步提升了内容创作水平。

值得买科技还发布了全面AI战略,基于AI升级现有业务和产品,重塑内容生产流程,构建了由“1个大模型、2个数据库、3个引擎、4类应用”组成的AI产品矩阵。此外,值得买科技积极连接外部多领域合作伙伴,共建“AI+兴趣”双轮驱动的消费生态,共同推动AI生态创新协同发展。

未来,值得买科技将继续与更多合作伙伴携手,共同探索AI在学术、技术和商业上的创新和应用,为创造消费信息自由流动的美好世界贡献力量。

原文链接
本文链接:https://kx.umi6.com/article/7864.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智谱 GLM-4.6V 系列多模态 AI 大模型发布并开源,API 降价 50%
2025-12-08 20:45:30
豆包大模型1.6正式发布
2025-06-11 11:12:11
「阶跃星辰」的一次豪赌
2025-05-21 08:55:53
中信证券:AI产业端Agent和多模态两大主线有望持续引领
2025-08-01 09:26:15
多模态和Agent成为大厂AI的新赛点
2025-04-30 20:07:29
谷歌狙击OpenAI 集中火力猛攻AI智能体
2024-12-12 10:56:14
谢赛宁李飞飞LeCun搞的寒武纪,究竟是个啥?
2025-11-24 15:02:36
微软 Phi-4 多模态及迷你模型上线,语音视觉文本全能
2025-02-27 10:13:59
Nano Banana爆火背后,深聊谷歌多模态五大主线布局
2025-09-10 15:36:58
美团新独立APP,点不了菜只能点AI
2025-11-03 12:17:52
多模态版DeepSeek-R1:评测表现超GPT-4o,模态穿透反哺文本推理能力!北大港科大出品,已开源
2025-02-06 09:24:07
张鹏×潘乱×张一甲,对谈实录
2025-07-10 14:22:23
匆匆发布的Llama4
2025-04-06 16:09:03
24小时热文
更多
扫一扫体验小程序