
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
6月25日,AI语音公司ElevenLabs推出独立移动应用,支持iOS和Android平台。用户可通过该应用输入文本并选择语音模型生成音频,免费用户享有约10分钟的文本转语音额度。应用接入最新v3 alpha模型,支持通过标签控制语音情感表达。此前,用户仅能通过网页版使用该服务。此次发布是ElevenLabs在消费级应用领域的进一步布局,未来计划增加语音转文本及对话式AI功能,并整合基于MCP技术的体验。
原文链接
微软Azure AI语音服务于8月23日推出全新功能——文本到语音虚拟人(Text to Speech Avatar)。这一创新技术让开发者能够利用Azure AI文本转语音技术,将简短文本转化为具有人类自然说话风格的视频,实现文本与视觉的无缝融合。此功能支持创建个性化虚拟人,输出视频分辨率为1920 x 1080,帧率为每秒25帧。用户可选择不同人物预设形象,并借助Azure AI生成的声音进行内容创作。此外,Speech Studio提供内容创建工具,支持实时聊天头像,实现互动体验。值得注意的是,服务定价基于视频时长,且已在全球多个地区包括东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部正式上线。此功能不仅丰富了AI语音应用的展现形式,也为开发者提供了更多创意空间和商业机会。
原文链接
OpenAI于6月10日再次澄清其文本转语音工具,称该技术目前仅限小范围测试,未来可能不开放,以增强公众对其发展的理解。去年底,OpenAI预览了能生成逼真人声的“语音引擎”,旨在通过教育和安全措施防范人工智能威胁。针对声音克隆技术引发的担忧,OpenAI正与多方合作,包括美国联邦贸易委员会,关注欺诈问题,并对最新模型GPT-4o进行风险评估,以确保公平和透明。总统拜登的人工智能负责人对此表示担忧,OpenAI承诺持续与各界合作,应对潜在风险。
原文链接
加载更多

暂无内容