
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
原文链接
ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破!
兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频?
此前,Text2Audio模型可通过文本生成单通道音频。...
原文链接
Stability AI的最新更新让其聊天机器人Stable Assistant变得更加强大。新功能包括图片编辑的搜索和替换功能,能无缝替换图像对象,满足创意专业人士的需求;还有Stable Audio,能快速生成3分钟的高质量音乐。此外,Stable Assistant支持多种操作,如生成新图像、扩大图像、提升画质、视频制作等,只需简单指令即可实现。无论是图片、音频还是视频内容的创作,Stable Assistant都提供了全面的智能化解决方案。现在,用户可以享受3天的免费试用期,体验这一创新工具带来的便利。
原文链接
6月6日,Stability AI基于Stable Diffusion模型发布开源AI音频工具Stable Audio Open,利用48.6万样本训练,能根据用户输入生成47秒高质量音乐、鼓点、音效等。该模型采用DiT技术,提升音频质量和多样性,并已在HuggingFace平台上供用户试用。Stability AI强调其适用于创作短片段而非完整歌曲。此前,他们还发布了Stable Audio 2.0,最长支持3分钟音频生成。
原文链接
加载更多

暂无内容