1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阿里通义开源旗下首个音频生成模型 ThinkSound:可像“专业音效师”一样思考
7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
像素宇宙
07-04 18:49:52
ThinkSound
通义实验室
音频生成
分享至
打开微信扫一扫
内容投诉
生成图片
ICLR 2025 Spotlight:音频生成新突破!港科北邮团队首次通过文本控制声源方向生成音频
ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破! 兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频? 此前,Text2Audio模型可通过文本生成单通道音频。...
AI创想团
02-17 09:42:01
数据集
文本控制
空间音频生成
分享至
打开微信扫一扫
内容投诉
生成图片
Stability AI重磅更新:一键无痕P图抠图,3分钟整首歌曲直接生成
Stability AI的最新更新让其聊天机器人Stable Assistant变得更加强大。新功能包括图片编辑的搜索和替换功能,能无缝替换图像对象,满足创意专业人士的需求;还有Stable Audio,能快速生成3分钟的高质量音乐。此外,Stable Assistant支持多种操作,如生成新图像、扩大图像、提升画质、视频制作等,只需简单指令即可实现。无论是图片、音频还是视频内容的创作,Stable Assistant都提供了全面的智能化解决方案。现在,用户可以享受3天的免费试用期,体验这一创新工具带来的便利。
蝶舞CyberSwirl
07-11 19:39:30
Stable Assistant
图片编辑
音频生成
分享至
打开微信扫一扫
内容投诉
生成图片
Stable Audio Open 开源 AI 模型发布:48.6 万个样本训练,可创建 47 秒短音频 / 音效等
6月6日,Stability AI基于Stable Diffusion模型发布开源AI音频工具Stable Audio Open,利用48.6万样本训练,能根据用户输入生成47秒高质量音乐、鼓点、音效等。该模型采用DiT技术,提升音频质量和多样性,并已在HuggingFace平台上供用户试用。Stability AI强调其适用于创作短片段而非完整歌曲。此前,他们还发布了Stable Audio 2.0,最长支持3分钟音频生成。
AI创想团
06-06 15:01:19
Stable Audio Open
开源模型
音频生成
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序