
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2025年10月17日,微软宣布在Windows 11中测试一系列AI功能。新升级包括Copilot Voice语音交互,用户可通过“嘿,Copilot”唤醒词或快捷键与AI助手对话,需麦克风和网络支持。此外,Copilot Vision功能全面上线,可识别用户屏幕内容并提供上下文支持。微软还新增“文本输入,文本输出”选项,丰富Vision会话方式。即将推出的Copilot Actions功能将支持代表用户执行操作,如打开本地文件。微软强调,语音功能旨在补充键盘和鼠标,而非取代。此次升级展现了微软在AI集成领域的进一步探索,为用户提供更自然、智能的交互体验。
原文链接
9月23日,亿道信息在互动平台表示,公司目前在人工智能机器人领域的相关产品主要包括智能音箱、AIoT智能家居中控和教育小机器人等,主要通过语音或传感器交互实现功能。但该领域相关收入占比较小,对公司整体业绩影响有限。这一回应明确了公司在AI机器人市场的现阶段布局及实际贡献,展现出业务尚处于初步发展阶段。
原文链接
2025年8月,彭博社苹果专家Mark Gurman预测,苹果计划在2026年推出基于AI Siri和增强版App Intents的纯语音交互系统。该技术将允许用户通过语音指令完成复杂操作,例如照片编辑、日程创建等,全程无需触控设备。这一功能的关键在于加强App Intents框架,扩大其调用范围,并结合Apple Intelligence的语音模型实现自然语言处理。尽管苹果曾在2024年WWDC上展示类似功能但因技术限制推迟,未来或优先应用于Apple Watch、HomePod及Vision Pro等设备。不过,高风险场景仍需严格测试,发布时间可能再次延迟。
原文链接
标题:一句话生成播客,豆包·播客模型太逼真了!
家人们,又一款有趣的AI来了——火山引擎发布了豆包·播客模型!只需一句话,就能生成高质量的播客内容。无论是实时热点讲解、超长文本概括,还是开放式话题反应,豆包·播客模型都能轻松应对。
例如,根据“亚朵酒店致歉”生成的播客,AI展现出清晰的态度和专业性;...
原文链接
4月16日消息,Anthropic正筹备推出语音交互功能,预计“最快本月”上线。该功能将集成在Claude AI聊天机器人中,提供Airy、Mellow和Buttery三种英文语音选择,与OpenAI的ChatGPT语音选项竞争。此前,Anthropic首席产品官Mike Krieger曾透露已开发语音功能原型。分析发现,Anthropic的iOS应用中早有语音模式线索。作为OpenAI前员工创办的企业,Anthropic近期推出200美元/月的高阶用户订阅方案,并发布科研场景专用AI工具。为应对高昂研发成本,Anthropic探索多元收入渠道,包括针对教育领域的Claude for Education项目,服务于高校。
原文链接
标题:语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
百度推出行业首个基于Cross-Attention的端到端语音语言大模型,大幅提升语音交互的真实性和情感表达,同时大幅降低语音问答场景的调用成本,最高降幅达90%。
该模型通过创新的跨模态架构,将语音识别和语言模型深度融合...
原文链接
据英国金融时报报道,Meta 计划在未来几周内推出开源大语言模型 Llama 4,重点发展语音交互功能。Meta CEO 马克·扎克伯格希望将 Meta 打造为‘AI 领域的领导者’,并在 2025 年实现 AI 产品的重大突破。Llama 4 将支持自然的双向对话,允许用户随时打断,提升交互灵活性。Meta 正考虑为 AI 助手 Meta AI 推出高级订阅服务,并探讨在搜索结果中引入付费广告。Meta 的语音交互功能也将应用于 Ray Ban 智能眼镜,助力其成为主要计算设备。
原文链接
2月18日,阶跃星辰与吉利汽车集团联合宣布,将合作研发的两款多模态大模型开源。其中包括全球参数量最大、性能最优的开源视频生成模型Step-Video-T2V,及首款产品级开源语音交互大模型Step-Audio。双方自2023年起在多个领域展开深度合作,显著提升了模型性能。3月初,吉利还将发布AI智能化战略,推动AI科技在智能座舱、高阶智驾等领域的应用。
原文链接
微软正在拓展Copilot Voice语音交互的多语言支持,从仅限英语扩展到支持德语、法语、西班牙语、印地语等多种语言。Copilot Voice是微软推出的语音助手功能,用户可通过语音进行自然对话,包括提问和发指令。目前,尽管支持多语言,用户仍需主动切换语言,且主要以英语优化为主,其他语言支持处于‘有限容量’状态。未来将逐步扩展。IT之家 2月6日报。
原文链接
前OpenAI研究员Alexis Conneau创立WaveForms AI,该公司专注于音频AI交互领域,已完成4000万美元种子轮融资,估值达2亿美元,由a16z领投。Conneau曾主导开发ChatGPT的高级语音模式,致力于使AI语音交互更自然、更具情感共鸣。WaveForms AI希望实现情感通用智能(EGI),让AI系统能实时解读和响应情感线索,创造更有意义的互动体验。受电影《她》启发,该公司旨在减少AI使用的成瘾性和隔离性,优先考虑同理心和连接,构建积极的人机交互。WaveForms AI计划于2025年发布首批产品。
原文链接
加载更多

暂无内容