AI 语音 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

AI 语音技术再升级，荣耀成功实现全球首个端侧语音大模型部署

2025年7月1日，荣耀宣布成功实现全球首个端侧语音大模型部署，相关技术将在7月2日发布的荣耀Magic V5海外版中首发搭载。该技术以两篇学术论文形式被国际顶会InterSpeech收录，标志着AI语音技术再度升级。同时，Magic V5折叠屏手机采用内折方案，搭载鲁班缓震铰链、高韧纤维材料及AI内屏异物感知技术，号称‘最抗摔铰链’与‘折叠机皇’。新机配备后置三摄组合及6100mAh超薄电池，支持长焦微距拍摄，并采用青海湖刀片电池技术，进一步提升续航能力。

原文链接

DreamCoder

07-01 21:58:56

AI 语音技术

端侧语音大模型

荣耀 Magic V5

分享至

打开微信扫一扫

内容投诉

生成图片

AI 语音公司 ElevenLabs 推出独立移动应用：免费用户享 10 分钟文本转语音额度

6月25日，AI语音公司ElevenLabs推出独立移动应用，支持iOS和Android平台。用户可通过该应用输入文本并选择语音模型生成音频，免费用户享有约10分钟的文本转语音额度。应用接入最新v3 alpha模型，支持通过标签控制语音情感表达。此前，用户仅能通过网页版使用该服务。此次发布是ElevenLabs在消费级应用领域的进一步布局，未来计划增加语音转文本及对话式AI功能，并整合基于MCP技术的体验。

原文链接

量子黑客

06-25 09:27:00

AI 语音

ElevenLabs

文本转语音

分享至

打开微信扫一扫

内容投诉

生成图片

安卓版谷歌 Gemini Live 将支持 40 多种语言，提供 AI 语音聊天功能

【2023年10月6日】谷歌在X平台上宣布，其Gemini Live应用已全面开放给安卓用户，并新增了40多种语言支持，包括法语、德语、葡萄牙语、印地语和西班牙语等。这款应用旨在提升移动对话体验，让用户与Gemini进行自然流畅的交流。Gemini Live搭载了进阶语音引擎，能提供连贯、情感丰富且真实的多轮对话，直面OpenAI ChatGPT的Advanced Voice模式竞争。目前，用户可在设置中选择法语、德语、葡萄牙语、印地语和英语（澳、英、美）、西班牙语（多国）中的任意两种语言进行对话。此更新标志着Gemini Live在多语言支持上的重大进展，为全球用户提供更广泛、便捷的交流工具。

原文链接

灵感Phoenix

10-09 11:02:55

40多种语言

AI 语音聊天功能

安卓版谷歌 Gemini Live

分享至

打开微信扫一扫

内容投诉

生成图片

安卓版谷歌 Gemini Live 免费上线，开启在线 AI 语音畅聊

9月13日，谷歌宣布Gemini Live服务已从面向Advanced订阅用户的小范围测试，正式扩展至所有安卓设备用户。此服务旨在提供一种全新的移动对话体验，允许用户与Gemini进行流畅的人工智能语音交流。Gemini Live以其增强的语音引擎，能实现更为连贯、富有情感且逼真的多轮对话，直接竞争OpenAI的ChatGPT Advanced Voice模式。作为谷歌在Pixel 9系列手机发布会后推出的创新服务，Gemini Live在本月四日正式对英语用户开放，标志着人工智能语音聊天领域的新进展。随着服务的全面上线，谷歌为用户带来了更多与AI交互的可能性，包括模拟面试场景和推荐演讲技巧等功能。

原文链接

未来笔触

09-13 09:09:56

免费上线

在线 AI 语音畅聊

安卓版谷歌 Gemini Live

分享至

打开微信扫一扫

内容投诉

生成图片

微软 Azure AI 语音服务推出虚拟人形象，支持文本转视频

微软Azure AI语音服务于8月23日推出全新功能——文本到语音虚拟人（Text to Speech Avatar）。这一创新技术让开发者能够利用Azure AI文本转语音技术，将简短文本转化为具有人类自然说话风格的视频，实现文本与视觉的无缝融合。此功能支持创建个性化虚拟人，输出视频分辨率为1920 x 1080，帧率为每秒25帧。用户可选择不同人物预设形象，并借助Azure AI生成的声音进行内容创作。此外，Speech Studio提供内容创建工具，支持实时聊天头像，实现互动体验。值得注意的是，服务定价基于视频时长，且已在全球多个地区包括东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部正式上线。此功能不仅丰富了AI语音应用的展现形式，也为开发者提供了更多创意空间和商业机会。

原文链接

未来笔触

08-23 08:32:10

Azure AI 语音服务

Text to Speech Avatar

文本转语音虚拟人

分享至

打开微信扫一扫

内容投诉

生成图片

谷歌发布 Gemini Live：支持 AI 语音聊天，可模拟面试场景、推荐演讲技巧

谷歌于8月14日发布了一项名为Gemini Live的服务，此服务将首先向英语Gemini Advanced订阅用户提供，旨在通过AI语音聊天提升对话体验。Gemini Live以其增强型语音引擎，能实现更为连贯、富有情感且逼真的多轮对话，其功能包括与Gemini进行自由对话，以及选择多种自然声音响应，允许用户按自己的节奏讲话并随时打断对话，提出后续问题。此外，Gemini Live还具备模拟面试场景的能力，能为用户提供演讲技巧推荐和优化建议。虽然当前版本不支持多模态输入，该功能预计将在今年晚些时候推出。Gemini Live的推出标志着谷歌在AI语音交互领域的进一步探索和创新。

原文链接