
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年7月1日,荣耀宣布成功实现全球首个端侧语音大模型部署,相关技术将在7月2日发布的荣耀Magic V5海外版中首发搭载。该技术以两篇学术论文形式被国际顶会InterSpeech收录,标志着AI语音技术再度升级。同时,Magic V5折叠屏手机采用内折方案,搭载鲁班缓震铰链、高韧纤维材料及AI内屏异物感知技术,号称‘最抗摔铰链’与‘折叠机皇’。新机配备后置三摄组合及6100mAh超薄电池,支持长焦微距拍摄,并采用青海湖刀片电池技术,进一步提升续航能力。
原文链接
6月25日,AI语音公司ElevenLabs推出独立移动应用,支持iOS和Android平台。用户可通过该应用输入文本并选择语音模型生成音频,免费用户享有约10分钟的文本转语音额度。应用接入最新v3 alpha模型,支持通过标签控制语音情感表达。此前,用户仅能通过网页版使用该服务。此次发布是ElevenLabs在消费级应用领域的进一步布局,未来计划增加语音转文本及对话式AI功能,并整合基于MCP技术的体验。
原文链接
【2023年10月6日】谷歌在X平台上宣布,其Gemini Live应用已全面开放给安卓用户,并新增了40多种语言支持,包括法语、德语、葡萄牙语、印地语和西班牙语等。这款应用旨在提升移动对话体验,让用户与Gemini进行自然流畅的交流。Gemini Live搭载了进阶语音引擎,能提供连贯、情感丰富且真实的多轮对话,直面OpenAI ChatGPT的Advanced Voice模式竞争。目前,用户可在设置中选择法语、德语、葡萄牙语、印地语和英语(澳、英、美)、西班牙语(多国)中的任意两种语言进行对话。此更新标志着Gemini Live在多语言支持上的重大进展,为全球用户提供更广泛、便捷的交流工具。
原文链接
9月13日,谷歌宣布Gemini Live服务已从面向Advanced订阅用户的小范围测试,正式扩展至所有安卓设备用户。此服务旨在提供一种全新的移动对话体验,允许用户与Gemini进行流畅的人工智能语音交流。Gemini Live以其增强的语音引擎,能实现更为连贯、富有情感且逼真的多轮对话,直接竞争OpenAI的ChatGPT Advanced Voice模式。作为谷歌在Pixel 9系列手机发布会后推出的创新服务,Gemini Live在本月四日正式对英语用户开放,标志着人工智能语音聊天领域的新进展。随着服务的全面上线,谷歌为用户带来了更多与AI交互的可能性,包括模拟面试场景和推荐演讲技巧等功能。
原文链接
微软Azure AI语音服务于8月23日推出全新功能——文本到语音虚拟人(Text to Speech Avatar)。这一创新技术让开发者能够利用Azure AI文本转语音技术,将简短文本转化为具有人类自然说话风格的视频,实现文本与视觉的无缝融合。此功能支持创建个性化虚拟人,输出视频分辨率为1920 x 1080,帧率为每秒25帧。用户可选择不同人物预设形象,并借助Azure AI生成的声音进行内容创作。此外,Speech Studio提供内容创建工具,支持实时聊天头像,实现互动体验。值得注意的是,服务定价基于视频时长,且已在全球多个地区包括东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部正式上线。此功能不仅丰富了AI语音应用的展现形式,也为开发者提供了更多创意空间和商业机会。
原文链接
谷歌于8月14日发布了一项名为Gemini Live的服务,此服务将首先向英语Gemini Advanced订阅用户提供,旨在通过AI语音聊天提升对话体验。Gemini Live以其增强型语音引擎,能实现更为连贯、富有情感且逼真的多轮对话,其功能包括与Gemini进行自由对话,以及选择多种自然声音响应,允许用户按自己的节奏讲话并随时打断对话,提出后续问题。此外,Gemini Live还具备模拟面试场景的能力,能为用户提供演讲技巧推荐和优化建议。虽然当前版本不支持多模态输入,该功能预计将在今年晚些时候推出。Gemini Live的推出标志着谷歌在AI语音交互领域的进一步探索和创新。
原文链接
加载更多

暂无内容