AI语音 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

美国无人机群挑战赛选用OpenAI语音控制技术

2月14日，据财联社报道，OpenAI与五角大楼选定的两家国防科技公司合作，为美国军方开发语音控制无人机群软件。该技术可将语音指令转化为无人机数字指令，是五角大楼奖金挑战赛的一部分，旨在开发无需人工干预即可决策和执行任务的无人机群技术原型。OpenAI目前仅提供模型开源版本，尚未决定参与深度及具体合作安排。这一进展展现了人工智能在军事领域的应用潜力，引发关注。

原文链接

E-Poet

02-14 02:55:40

OpenAI语音控制

五角大楼挑战赛

美国无人机群

分享至

打开微信扫一扫

内容投诉

生成图片

严重落后竞争对手！苹果AI团队重组：找来前微软高管接任

12月2日，苹果公司因AI领域表现不佳宣布重组AI团队。原主管John Giannandrea转任顾问并计划明年初退休，前微软高管Amar Subramanya接任领导职位。Subramanya曾在微软负责Microsoft Copilot，并在谷歌任职16年，主导Gemini项目。苹果自2024年推出Apple Intelligence以来，其核心功能Siri AI屡次延期，竞争力落后于OpenAI的ChatGPT和谷歌Gemini等对手。为缩小差距，苹果采取双线策略：一方面由Subramanya带领开发自有AI模型，另一方面支付谷歌每年约10亿美元使用定制版Gemini驱动Siri。分析师警告，缺乏强大AI功能可能使iPhone成为苹果的短板。

原文链接

代码编织者

12-02 19:31:56

Amar Subramanya

Siri AI语音助理

苹果AI团队

分享至

打开微信扫一扫

内容投诉

生成图片

奥斯卡获奖演员麦康纳、凯恩与 ElevenLabs 签约，为 AI“献声”

11月12日，奥斯卡获奖演员马修・麦康纳与迈克尔・凯恩宣布与人工智能语音公司ElevenLabs签约，授权其声音用于AI生成技术。麦康纳自2022年起已与该公司合作，并投资支持，此次协议将其创办的《生活诗篇》转化为西班牙语有声版本。凯恩的声音则加入ElevenLabs新推出的“标志性声音市场”，供品牌合法使用名人语音。凯恩强调，这一创新旨在放大而非取代人性。该平台还收录了约翰・韦恩、朱迪・加兰等已故名人及丽莎・明内利等在世名人的语音模型，甚至包括历史人物如艾伦・图灵的声音。ElevenLabs估值已达66亿美元，名人与AI企业的合作正成为趋势，Meta等公司也已涉足类似领域。

原文链接

梦境编程师

11-12 18:17:54

AI语音

ElevenLabs

奥斯卡获奖演员

分享至

打开微信扫一扫

内容投诉

生成图片

新豆包模型让郭德纲喊出发疯文学：(这班)不上了！不上了！不上了！！！

2025年10月，火山引擎升级了豆包语音大模型，推出语音合成模型2.0与声音复刻模型2.0。新模型通过深度语义理解与上下文推理能力，使AI语音从“像人”走向“懂人”，支持情感表达、方言、语气等多样化控制。例如，郭德纲和于谦的腔调被复刻演绎“发疯文学”。此外，新架构还解决了复杂公式朗读难题，准确率达90%。同时，豆包大模型1.6新增分档调节思考长度功能，并推出轻量化版本及智能模型路由技术，显著降低企业使用成本。目前，该技术已在小米、懂车帝等企业落地应用，日均tokens调用量超过30万亿，占据中国公有云市场半壁江山。

原文链接

虚拟微光

10-16 14:53:40

AI语音合成

发疯文学

豆包语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

微软解锁 AI 配音新技能：生成最长 90 秒多角色叙述，语音更像真人

8月29日，微软在Copilot Labs推出全新AI语音生成工具Copilot Audio Expressions，支持Emotive和Story两种模式。该工具可生成最长90秒的多角色叙述音频，语音表现更接近真人。Emotive模式允许用户选择音色和风格，生成生动表达的音频，单段最长59秒；Story模式则根据主题自动生成音色与风格，适合复杂情节与多角色对话。测试显示，其输出效果自然流畅，适用于创意作品制作。目前仅支持英文，暂无多语言支持计划。

原文链接

GhostPilot

08-30 15:51:23

AI语音生成

Copilot Audio Expressions

微软

分享至

打开微信扫一扫

内容投诉

生成图片

前百川联创焦可新创业公司曝光，新项目已上线 App Store

2025年7月11日，前百川智能联合创始人焦可推出AI语音创业项目“来福”，产品已上线App Store。该项目由其新公司“北京耳朵时间科技有限公司”开发，成立于2025年2月，注册资本100万元，并获知名美元资本投资。“来福”定位为AI驱动的语音电台应用，支持实时语音互动，探索日常化、情绪化的语音交互场景，目前仅限邀请码用户测试。团队规模约10人，成员多来自大厂及名校。此外，国内AI播客领域尚处早期，其他创业项目如ChatPods和“可听.ai”也崭露头角，但大厂尚未专注此方向。焦可选择切入情绪化语音交互赛道，市场前景有待验证。

原文链接

灵感Phoenix

07-11 18:43:26

AI语音

来福

焦可

分享至

打开微信扫一扫

内容投诉

生成图片

AI 语音爆发的这半年，一位“局中人”看到的赛道爆发逻辑

过去半年，AI语音赛道爆发，多家公司获大额融资。例如，Wispr Flow完成3000万美元A轮融资，ElevenLabs估值超30亿美元。Meta、OpenAI等巨头也积极布局语音模型。声智副总裁黄赟贺指出，语音对话因大模型加持进化为AI时代入口，声音首次实现“可编程化”，使语音交互迈向新阶段。然而，“听清”仍是技术难点，受物理限制需长期突破。未来，语音交互将从功能导向转向情感导向，通过情绪识别、意图理解等方式实现人机共情，并构建融合声学、视觉与语言的“声学世界模型”，推动具身智能发展。

原文链接

Journeyman

07-03 12:21:05

AI语音

声学交互

大模型

分享至

打开微信扫一扫

内容投诉

生成图片

Meta据称正密洽AI语音黑马PlayAI 抢人抢技术两手抓

财联社6月26日报道，美国科技巨头Meta Platforms正与AI语音初创公司PlayAI进行深入收购谈判，计划获取其技术资产并吸纳部分员工。PlayAI专注于开发自然语音交互技术，2024年末完成2100万美元融资。此举是扎克伯格组建‘超级智能’团队的一部分，旨在提升AI语音助手和免提设备能力。此前，Meta已收购Scale AI近半股份，并从OpenAI挖角研究人员。此外，Meta还曾与Perplexity AI、Runway AI等公司洽谈收购事宜。

原文链接

LunarCoder

06-27 17:20:17

AI语音技术

Meta

PlayAI

分享至

打开微信扫一扫

内容投诉

生成图片

MiniMax登顶、多家创企融资，AI语音离「现实场景」还有多远？

4月12日，MiniMax推出最新语音生成模型Speech-02，其升级版Speech-02-HD于5月15日登顶两大榜单，技术指标领先竞品。近期，多家AI语音创企获融资，如Cartesia获6400万美元融资，Hume AI获5000万美元融资，同时Amazon、Google等大厂也在布局相关技术。为评估当前AI语音在实际场景中的表现，测试选择了直播带货、语音陪伴、有声书三个场景，MiniMax、DubbingX等五款模型参与测试。结果显示，DubbingX在中文有声书场景中表现突出，尤其在复合情感表达上优于其他产品，而ElevenLabs和Sesame在英文场景中表现欠佳。尽管部分模型在情感传达上有所进步，但在复杂场景中仍需更多工程优化。AI语音在toB领域的应用已较广泛，但在toC场景中仍面临挑战，未来技术发展值得期待。

原文链接

像素宇宙

06-06 12:28:01

AI语音

应用场景

语音模型

分享至

打开微信扫一扫

内容投诉

生成图片

AI语音离「现实场景」还有多远？

4月12日，MiniMax推出最新语音生成模型Speech-02，5月15日其升级版Speech-02-HD登顶多个榜单。AI语音赛道火热，多家企业完成融资，如Cartesia获6400万美元融资，Hume AI获5000万美元融资，Google和Amazon也在布局相关技术。近期测试显示，AI在中文有声书配音中，DubbingX表现较优，能较好传达“愤怒”与“悲伤”情绪；但在英文有声书场景中，多数模型未达及格标准。直播带货场景中，AI情感表达合格但场景适配性差，而AI陪伴场景表现中规中矩。总体来看，AI语音在简单场景中表现尚可，复杂场景仍需改进。未来，toB领域应用前景广阔，如AI助手和陪伴硬件，我们将持续关注其发展。

原文链接

梦境编程师

06-06 11:25:15

AI语音

应用场景

情感表达

分享至

打开微信扫一扫

内容投诉

生成图片

加载更多