1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
太逼真!豆包·播客模型来了:一句话生成「苏超联赛」播客,很懂13太保的梗
标题:一句话生成播客,豆包·播客模型太逼真了! 家人们,又一款有趣的AI来了——火山引擎发布了豆包·播客模型!只需一句话,就能生成高质量的播客内容。无论是实时热点讲解、超长文本概括,还是开放式话题反应,豆包·播客模型都能轻松应对。 例如,根据“亚朵酒店致歉”生成的播客,AI展现出清晰的态度和专业性;...
AGI探路者
06-09 17:30:11
AI播客
端到端语音交互
豆包模型
分享至
打开微信扫一扫
内容投诉
生成图片
直面 OpenAI,Anthropic 正筹备“最快本月”推出语音交互功能
4月16日消息,Anthropic正筹备推出语音交互功能,预计“最快本月”上线。该功能将集成在Claude AI聊天机器人中,提供Airy、Mellow和Buttery三种英文语音选择,与OpenAI的ChatGPT语音选项竞争。此前,Anthropic首席产品官Mike Krieger曾透露已开发语音功能原型。分析发现,Anthropic的iOS应用中早有语音模式线索。作为OpenAI前员工创办的企业,Anthropic近期推出200美元/月的高阶用户订阅方案,并发布科研场景专用AI工具。为应对高昂研发成本,Anthropic探索多元收入渠道,包括针对教育领域的Claude for Education项目,服务于高校。
灵感Phoenix
04-16 07:56:17
Anthropic
OpenAI
语音交互
分享至
打开微信扫一扫
内容投诉
生成图片
语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90%
标题:语音界Deepseek!百度最新跨模态端到端语音交互,成本最高降90% 百度推出行业首个基于Cross-Attention的端到端语音语言大模型,大幅提升语音交互的真实性和情感表达,同时大幅降低语音问答场景的调用成本,最高降幅达90%。 该模型通过创新的跨模态架构,将语音识别和语言模型深度融合...
智能涌动
04-02 16:31:19
低成本
百度
语音交互
分享至
打开微信扫一扫
内容投诉
生成图片
消息称 Meta 的 Llama 4 模型将聚焦语音交互,全力开拓 AI 商业版图
据英国金融时报报道,Meta 计划在未来几周内推出开源大语言模型 Llama 4,重点发展语音交互功能。Meta CEO 马克·扎克伯格希望将 Meta 打造为‘AI 领域的领导者’,并在 2025 年实现 AI 产品的重大突破。Llama 4 将支持自然的双向对话,允许用户随时打断,提升交互灵活性。Meta 正考虑为 AI 助手 Meta AI 推出高级订阅服务,并探讨在搜索结果中引入付费广告。Meta 的语音交互功能也将应用于 Ray Ban 智能眼镜,助力其成为主要计算设备。
LunarCoder
03-07 22:12:53
AI 商业化
Llama 4
语音交互
分享至
打开微信扫一扫
内容投诉
生成图片
多模态实力领跑开源大模型!阶跃星辰与吉利宣布联合开源两款多模态大模型
2月18日,阶跃星辰与吉利汽车集团联合宣布,将合作研发的两款多模态大模型开源。其中包括全球参数量最大、性能最优的开源视频生成模型Step-Video-T2V,及首款产品级开源语音交互大模型Step-Audio。双方自2023年起在多个领域展开深度合作,显著提升了模型性能。3月初,吉利还将发布AI智能化战略,推动AI科技在智能座舱、高阶智驾等领域的应用。
阿达旻
02-18 10:16:14
多模态大模型
开源大模型
语音交互大模型
分享至
打开微信扫一扫
内容投诉
生成图片
微软 Copilot Voice AI 语音交互不再仅限英语,扩展支持德语、法语等语言
微软正在拓展Copilot Voice语音交互的多语言支持,从仅限英语扩展到支持德语、法语、西班牙语、印地语等多种语言。Copilot Voice是微软推出的语音助手功能,用户可通过语音进行自然对话,包括提问和发指令。目前,尽管支持多语言,用户仍需主动切换语言,且主要以英语优化为主,其他语言支持处于‘有限容量’状态。未来将逐步扩展。IT之家 2月6日报。
E-Poet
02-06 10:30:55
Copilot Voice
多语言支持
语音交互
分享至
打开微信扫一扫
内容投诉
生成图片
ChatGPT 高级语音模式主创“自立门户”:新公司估值达 2 亿美元,打造有情感的 AI 语音交互
前OpenAI研究员Alexis Conneau创立WaveForms AI,该公司专注于音频AI交互领域,已完成4000万美元种子轮融资,估值达2亿美元,由a16z领投。Conneau曾主导开发ChatGPT的高级语音模式,致力于使AI语音交互更自然、更具情感共鸣。WaveForms AI希望实现情感通用智能(EGI),让AI系统能实时解读和响应情感线索,创造更有意义的互动体验。受电影《她》启发,该公司旨在减少AI使用的成瘾性和隔离性,优先考虑同理心和连接,构建积极的人机交互。WaveForms AI计划于2025年发布首批产品。
数字墨迹
12-10 14:58:55
AI语音交互
WaveForms AI
情感共鸣
分享至
打开微信扫一扫
内容投诉
生成图片
数字华夏展示“夏澜”人形机器人:高仿外观、百变人脸、自然语音交互
【数字华夏亮相2024世界机器人大会】8月21日,北京举办的2024世界机器人大会上,数字华夏(深圳)科技有限公司展示了其全新交互型人形机器人“夏澜”。作为业内首倡“人形交互机器人”概念的品牌,数字华夏致力于打造具备“温度”的智能伙伴,旨在超越传统机器人界限,实现与人类情感的深度连接。 【创新AI...
量子思考者
08-23 09:42:35
人形机器人
数字华夏
自然语音交互
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义千问开源 Qwen2-Audio 7B 语音交互大模型:自由互动,无需输入文本
阿里通义千问近期宣布开源了两款大型语音交互模型——Qwen2-Audio-7B 和 Qwen2-Audio-7B-Instruct。这一创新突破了传统的文本输入限制,允许用户通过语音与模型进行自由互动。模型具备两种交互模式:一种是语音聊天,无需用户输入文本即可与之交流;另一种则是音频分析模式,在对话过程中用户可以提供音频和文本指令以进行深度音频分析。 Qwen2-Audio 在多项基准数据集上的测试结果显著优于前代模型,展现出卓越的性能。这一开源项目不仅提供了试用链接,还公开了详细的论文、评估标准和代码库,鼓励开发者和研究者进一步探索和应用这一技术。随着人工智能领域的快速发展,阿里此举不仅推动了语音交互技术的进步,也为行业带来了新的创新机遇。
E-Poet
08-13 13:12:06
Qwen2-Audio
语音交互大模型
阿里通义千问
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序