综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
我用AI为神曲《八方来财》制作魔性MV
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
如今,用AI制作歌曲MV已经成为现实。最近,我尝试用AI为神曲《八方来财》打造了一支东方赛博朋克风格的MV,效果非常魔性!而这背后的技术支持来自中国电信推出的AI创作平台——TeleStudio。 ...
原文链接
2025年10月1日,香橙派推出AI Studio系列推训一体迷你主机,搭载华为昇腾310 AI八核处理器,AI性能达176TOPS。标准版配备48GB或96GB内存,Pro版双机合一,拥有16核CPU、最高192GB内存及352TOPS AI性能,并配双散热风扇。接口仅一个USB 4.0 Type-C,需扩展坞支持多设备连接。系统支持Ubuntu 22.04.5和Linux 5.15,未来将支持Windows,适用于Deepseek-R1模型本地部署及多种AI场景。售价方面,标准版6808元起,Pro版13606元起,现已在京东开售。
原文链接
英伟达于9月24日宣布开源AI面部动画模型Audio2Face,包括模型、SDK及完整训练框架,旨在加速游戏和3D应用中的虚拟角色开发。该技术通过分析音频特征实时生成精准口型同步和自然表情,适用于游戏、影视和客户服务等领域。Audio2Face支持离线渲染和实时流式处理,并提供多个核心组件,如Maya插件、Unreal Engine插件及扩散模型等,开发者可用自有数据微调模型。目前,该技术已被多家游戏开发商采用,《异形:侠盗入侵进化版》和《切尔诺贝利人2:禁区》均借此提升制作效率与角色真实感,获行业高度评价。
原文链接
9月19日,腾讯推出一站式工作平台“混元3D Studio”,面向3D设计师、游戏开发者和建模师等用户群体。该平台基于行业领先的混元3D模型,通过AI技术整合3D生产全流程,将3D资产生产周期从“天”级缩短至“分钟”级。目前1.0版本已上线角色和道具创作管线,未来还将增加地图、关卡等更多创作功能。(记者 李佳怡)
原文链接
9月19日,小米宣布开源首个原生端到端语音大模型Xiaomi-MiMo-Audio,首次在语音领域实现基于ICL的少样本泛化。该模型通过创新预训练架构和上亿小时数据,在自然度、情感表达和交互适配方面达到拟人化水准。其突破性创新包括:证明语音无损压缩预训练可“涌现”跨任务泛化性,并开源完整语音预训练方案,包括Tokenizer、模型结构等。目前,模型已在Huggingface和Github平台开源,参数量达1.2B,支持音频重建和音频转文本任务。
原文链接
9月14日,Stability AI发布企业级音频生成模型Stable Audio 2.5,主打高效生成与细节优化。新模型可在2秒内生成3分钟的高质量音频曲目,采用ARC技术(相对式对抗训练与对比判别器)提升生成速度和音轨质量。其生成结果更贴合编曲逻辑,支持前奏、发展与结尾等多段式结构,并能准确响应情绪描述和音乐风格提示词。新增音频修补功能,可基于用户上传的音频文件智能延展内容,适合剪辑场景。目前,模型已开放官网试用并支持本地化部署,但禁止上传受版权保护的内容,平台将通过内容识别系统防止侵权行为。
原文链接
2025年,前谷歌X团队创立的AI原生影视工作室Utopai Studios崭露头角,预售收入超1.1亿美元,成为全球首家AI驱动的内容创作公司。其两部重磅项目《科尔特斯》和《太空计划》已获好莱坞顶级资源支持,并成功打入欧洲市场。公司由00后华裔创始人Cecilia Shen和前Google Research科学家Jie Yang于2022年创立,转型自3D生成AI公司Cybever,专注于AI与内容生产的深度结合。Utopai通过四阶段技术进化,开发出“Previz-to-Video Pipeline”,解决了AI视频生成中的一致性、可控性和叙事延续性难题。公司还与K5 International等好莱坞巨头合作,整合生态链,目标是打造类似皮克斯的IP驱动模式。Utopai的成功标志着AI在影视行业从工具向内容创造的转型,引领创作自由的新时代。
原文链接
2025年9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini,并在多个国际基准测试中取得SOTA成绩。该模型统一语音理解、音频推理与生成,支持语音原生Tool Calling能力,可实现联网搜索等操作。其综合性能超越Qwen-Omni、Kimi-Audio等开源模型及GPT-4o Audio,在音频理解、语音识别、翻译和对话场景中表现突出。例如,在中英互译任务上,其CoVoST 2和CVSS评分分别达39.3和29.1;语音识别任务中,中文CER为3.19,英语WER为3.50,领先其他开源模型15%以上。通过真端到端多模态架构、CoT推理结合强化学习及音频知识增强,Step-Audio 2 mini有效解决传统语音模型智商情商不足的问题,现已上线阶跃星辰开放平台并开源。
原文链接
9月1日,阶跃星辰发布开源端到端语音大模型Step-Audio 2 mini。该模型统一建模语音理解、音频推理与生成,在音频理解、语音识别、跨语种翻译、情感解析、副语言解析及语音对话等任务中表现出色。它率先支持语音原生的Tool Calling能力,可实现联网搜索等功能,为语音技术领域带来新突破。
原文链接
8月29日,微软在Copilot Labs推出全新AI语音生成工具Copilot Audio Expressions,支持Emotive和Story两种模式。该工具可生成最长90秒的多角色叙述音频,语音表现更接近真人。Emotive模式允许用户选择音色和风格,生成生动表达的音频,单段最长59秒;Story模式则根据主题自动生成音色与风格,适合复杂情节与多角色对话。测试显示,其输出效果自然流畅,适用于创意作品制作。目前仅支持英文,暂无多语言支持计划。
原文链接
加载更多
暂无内容