音频生成 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

OpenAI 深夜炸场：家族最强视频生成模型 Sora 2 发布，还能同步生成音频

北京时间10月1日凌晨，OpenAI发布新一代视频生成模型Sora 2，新增音频生成功能，拟真效果和物理规律表现显著提升。用户可通过录制视频和语音完成身份验证，在生成内容中“客串”自己或他人。Sora 2应用已在iOS上架，采用邀请制，初期将在美国和加拿大开放，并提供宽松创作额度。OpenAI表示，未来可能推出付费生成选项以应对算力限制。为保障安全，系统会屏蔽不安全内容，所有视频均带水印与元数据标识，用户肖像仅在本人同意下使用。此外，OpenAI计划扩充人工审核团队，重点审查敏感内容。公司称，Sora 2是迈向通用世界模拟器的重要一步。

原文链接

QuantumHacker

10-01 08:39:42

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义开源旗下首个音频生成模型 ThinkSound：可像“专业音效师”一样思考

7月4日，阿里通义实验室宣布开源首个音频生成模型ThinkSound。该模型首次将思维链（CoT）技术应用于音频生成领域，能够像专业音效师一样“听懂画面”，实现高保真、强同步的空间音频生成。研究团队构建了支持链式推理的多模态音频数据集AudioCoT，包含2531.8小时高质量样本，覆盖动物鸣叫、机械运转等真实场景，并通过严格筛选保障数据质量。ThinkSound由多模态大语言模型和统一音频生成模型组成，分三阶段解析画面内容并生成精准音频效果。这一技术突破解决了传统视频到音频生成中动态细节与空间关系不足的问题，满足专业创意需求。项目已开源，详情可参考GitHub、Hugging Face及ModelScope平台。

原文链接

像素宇宙

07-04 18:49:52

分享至

打开微信扫一扫

内容投诉

生成图片

Stability AI重磅更新：一键无痕P图抠图，3分钟整首歌曲直接生成

Stability AI的最新更新让其聊天机器人Stable Assistant变得更加强大。新功能包括图片编辑的搜索和替换功能，能无缝替换图像对象，满足创意专业人士的需求；还有Stable Audio，能快速生成3分钟的高质量音乐。此外，Stable Assistant支持多种操作，如生成新图像、扩大图像、提升画质、视频制作等，只需简单指令即可实现。无论是图片、音频还是视频内容的创作，Stable Assistant都提供了全面的智能化解决方案。现在，用户可以享受3天的免费试用期，体验这一创新工具带来的便利。

原文链接

蝶舞CyberSwirl

07-11 19:39:30

分享至

打开微信扫一扫

内容投诉

生成图片

Stable Audio Open 开源 AI 模型发布：48.6 万个样本训练，可创建 47 秒短音频 / 音效等

6月6日，Stability AI基于Stable Diffusion模型发布开源AI音频工具Stable Audio Open，利用48.6万样本训练，能根据用户输入生成47秒高质量音乐、鼓点、音效等。该模型采用DiT技术，提升音频质量和多样性，并已在HuggingFace平台上供用户试用。Stability AI强调其适用于创作短片段而非完整歌曲。此前，他们还发布了Stable Audio 2.0，最长支持3分钟音频生成。

原文链接