综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
北京时间10月1日凌晨,OpenAI发布新一代视频生成模型Sora 2,新增音频生成功能,拟真效果和物理规律表现显著提升。用户可通过录制视频和语音完成身份验证,在生成内容中“客串”自己或他人。Sora 2应用已在iOS上架,采用邀请制,初期将在美国和加拿大开放,并提供宽松创作额度。OpenAI表示,未来可能推出付费生成选项以应对算力限制。为保障安全,系统会屏蔽不安全内容,所有视频均带水印与元数据标识,用户肖像仅在本人同意下使用。此外,OpenAI计划扩充人工审核团队,重点审查敏感内容。公司称,Sora 2是迈向通用世界模拟器的重要一步。
原文链接
9月14日,Stability AI发布企业级音频生成模型Stable Audio 2.5,主打高效生成与细节优化。新模型可在2秒内生成3分钟的高质量音频曲目,采用ARC技术(相对式对抗训练与对比判别器)提升生成速度和音轨质量。其生成结果更贴合编曲逻辑,支持前奏、发展与结尾等多段式结构,并能准确响应情绪描述和音乐风格提示词。新增音频修补功能,可基于用户上传的音频文件智能延展内容,适合剪辑场景。目前,模型已开放官网试用并支持本地化部署,但禁止上传受版权保护的内容,平台将通过内容识别系统防止侵权行为。
原文链接
7月4日,阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链(CoT)技术应用于音频生成领域,能够像专业音效师一样“听懂画面”,实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT,包含2531.8小时高质量样本,覆盖动物鸣叫、机械运转等真实场景,并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成,分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题,满足专业创意需求。项目已开源,详情可参考GitHub、Hugging Face及ModelScope平台。
原文链接
ICLR 2025 Spotlight:港科北邮团队通过文本控制声源方向实现音频生成新突破!
兔子利用双耳感知环境,类似地,人类也需要双耳来享受电影、判断驾驶环境。然而,应用广泛的diffusion生成模型能否直接生成符合物理规律的空间音频?
此前,Text2Audio模型可通过文本生成单通道音频。...
原文链接
Stability AI的最新更新让其聊天机器人Stable Assistant变得更加强大。新功能包括图片编辑的搜索和替换功能,能无缝替换图像对象,满足创意专业人士的需求;还有Stable Audio,能快速生成3分钟的高质量音乐。此外,Stable Assistant支持多种操作,如生成新图像、扩大图像、提升画质、视频制作等,只需简单指令即可实现。无论是图片、音频还是视频内容的创作,Stable Assistant都提供了全面的智能化解决方案。现在,用户可以享受3天的免费试用期,体验这一创新工具带来的便利。
原文链接
6月6日,Stability AI基于Stable Diffusion模型发布开源AI音频工具Stable Audio Open,利用48.6万样本训练,能根据用户输入生成47秒高质量音乐、鼓点、音效等。该模型采用DiT技术,提升音频质量和多样性,并已在HuggingFace平台上供用户试用。Stability AI强调其适用于创作短片段而非完整歌曲。此前,他们还发布了Stable Audio 2.0,最长支持3分钟音频生成。
原文链接
加载更多
暂无内容