综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0)。新模型推理能力显著提升,上下文关键词召回率提高20%,通过深度理解上下文实现更精准的语音识别。新增多模态视觉识别功能,支持单图和多图输入,进一步提升文字识别准确性。此外,该模型支持13种海外语种,包括日语、韩语、德语和法语等,满足国际化需求。此次升级为语音识别技术带来全新突破,助力多场景应用发展。
原文链接
12月5日,火山引擎发布豆包语音识别模型2.0(Doubao-Seed-ASR-2.0),新增多模态视觉识别功能,支持“听懂字”和“看懂图”,大幅提升文字与场景识别精准度。模型优化了上下文推理能力,关键词召回率提升20%,并支持日语、韩语、德语、法语等13种外语识别。通过深度理解上下文及图像辅助,可精准判断易混淆词汇,如搜拍场景中的“滑鸡”与“滑稽”。此外,模型基于PPO强化学习方案,无需依赖历史记录即可泛化理解动态交互场景,适用于图片创作和跨语言交流。目前,该模型已上线火山方舟体验中心,并对外提供API服务。
原文链接
12月3日国际残疾人日,全国首个AI听障康复智能体“中移无障碍”在广州落地。该产品由中国移动研发,融合AI大模型与5G通信技术,支持电话接听、面对面沟通及语言康复训练等场景。通过个性化语音识别体系,它能精准还原语音、实时转写文字,帮助听障人士突破沟通障碍。例如,听障用户林女士借助小程序逐步改善发音并获同事认可。针对听障用户特点,系统归纳近百种构音障碍类型,平均识别率从不足30%提升至75%以上,部分用户接近90%。同时,个人专属模型可流畅运行于普通手机,降低使用门槛,并提供应急通话陪练功能,助力听障人士更好融入社会。
原文链接
2025年11月11日,Meta推出支持1600种语言的语音识别系统Omnilingual ASR并开源。该系统覆盖500种此前无AI支持的语言,大幅拓展语言范围,助力跨语言沟通。测试显示,78%的语言字符错误率低于10%,低资源语言也有36%达标。Meta同步发布包含350种代表性不足语言的语料库,采用CC-BY协议开放。系统创新‘自带语言’功能,通过少量样本即可学习新语言,理论支持扩展至5400种。模型基于PyTorch框架构建,提供多种参数版本,满足不同需求,全部以Apache 2.0协议开源。
原文链接
2025云栖大会上,阿里集团发布六大AI模型及全新品牌“通义百聆”。新模型包括Qwen3-VL(视觉理解)、Wan2.5-Preview(音画同步视频生成)等,覆盖文本、视觉、语音、代码等全场景应用。其中,Qwen-MAX在国际榜单登顶,Qwen3-Coder优化项目级代码修复能力,通义百聆攻克企业语音模型落地难题。此外,模型强化多语言OCR、超长上下文支持、音画同步生成等能力,提升工业级编辑与跨行业适配表现。阿里CEO吴泳铭表示将加大AI基础设施投入,推进3800亿投资计划。
原文链接
8月22日,阿里通义发布新一代语音识别模型Fun-ASR。该模型采用端到端设计,显著提升了上下文感知和语音转写的精准度。目前,Fun-ASR已应用于会议字幕、同声传译、智能纪要及语音助手等场景,并计划未来在阿里云百炼平台上线。这一创新技术将进一步推动语音识别领域的应用发展。
原文链接
8月22日,钉钉与通义实验室联合推出新一代语音识别大模型Fun-ASR,可精准识别家装、畜牧等十大行业专业术语。该模型已集成至钉钉的会议字幕、智能纪要等功能模块,适用于企业级高精度语境。通过上亿小时音频数据训练,Fun-ASR在保险行业准确率提升18%,在家装、畜牧等领域提升15%-20%。新增企业自定义热词功能,支持最多1000+热词导入,并结合企业信息优化转写结果,缓解大模型幻觉问题。例如,在顾家家居的案例中,模型能准确识别“比利时进口Pulse乳胶”等行业黑话,助力客户需求分析。
原文链接
2025年6月30日,国内语音AI龙头云知声在港交所上市,医疗AI业务营收占比稳步提升。近期,全球医疗环境AI赛道迎来资本热潮,新秀Abridge完成3亿美元E轮融资,估值达53亿美元,其年内两轮融资总额超5.5亿美元。另一竞争对手Commure也在6月融资2亿美元。数据显示,过去半年内该领域完成6起融资,总额超66亿美元,并有2家企业成功IPO。医疗环境AI因能大幅减少医生文书工作时间而备受关注,但技术仍面临语义误解等挑战。与此同时,FDA和英国NHS正加强对AI转写系统的监管,未来可能纳入医疗器械管理体系。随着大模型技术推动,环境AI正从单点解决方案向全流程集成迈进,行业前景广阔。
原文链接
2025年7月1日,联发科旗下前瞻技术研究单位联发创新基地发布专为中国台湾地区用语及口音优化的AI语音识别模型MR BreezeASR 25。该模型基于OpenAI Whisper优化,在识别台湾地区用语时更准确,例如不会将‘发生什么事’误听为‘花生什么事’,同时在中英混合语境下的识别精度提升56%。相较原版Whisper,MR BreezeASR 25整体精度提升近10%。该模型已开源,采用Apache 2.0许可,适用于各类AI应用场景,有助于推动繁体中文AI应用的发展。
原文链接
2025年,AI行业从底层大模型转向应用产品,医疗健康成为AI创业新热点。AI医疗独角兽Abridge通过解决医生文书负担问题,估值达197亿元。Abridge由心脏病专家创立,利用AI自动语音识别技术,将医生诊疗过程转录为电子病历,大幅降低文书成本。其与美国最大医疗信息化厂商Epic深度合作,集成到EMR系统中,无需医生改变工作习惯。Abridge ARR预计2024年达5000万美元,已完成2.5亿美元融资。尽管技术门槛不高,Abridge通过优化多语言支持及数据反馈提升壁垒。目前,Abridge已覆盖美国110多个医疗系统,服务16000名医生,面临激烈市场竞争。其成功经验提示,中国AI医疗企业需结合本土化需求,深耕分级诊疗与县域医疗场景。
原文链接
加载更多
暂无内容