语音识别 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

阶跃StepAudio 2.5 ASR上线支持500TPS极速推理

4月24日，阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR，首次将大语言模型推理加速技术引入语音识别领域。基于ASR+MTP-5深度融合架构，新模型实现推理速度提升400%、时延降低60%，推理峰值达500 tokens/s，成本下降80%。约5分钟的音视频可瞬间完成转写，大幅提升效率。（记者黄心怡）

原文链接

智能维度跳跃

04-24 14:19:56

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义实验室推出语音识别大模型Fun-ASR1.5

4月20日，阿里通义实验室发布语音识别大模型Fun-ASR1.5。该模型基于统一架构，单模型即可支持30种语言、汉语七大方言体系及20多种地方口音，甚至能精准转写古诗词吟诵。测试结果显示，在典型方言场景中，字错误率（CER）相对下降56.2%。目前，已有5种方言识别准确率突破90%，15种方言超过80%。这一技术突破显著提升了多语言和多方言场景下的语音识别能力，为用户提供更高效的语音转写服务。

原文链接

智能视野

04-20 15:12:20

分享至

打开微信扫一扫

内容投诉

生成图片

千问语音识别模型Qwen3-ASR开源！饶舌RAP歌曲也能轻松识别

1月29日，阿里开源千问语音识别模型Qwen3-ASR系列，性能达开源最佳（SOTA），直逼顶级闭源模型。该模型支持52种语言与方言，可精准识别语速快的饶舌RAP歌曲，并在10秒内处理5小时音频。此次开源包括1.7B和0.6B两个版本，前者准确率极高，后者效率与性能平衡，适合端侧部署。Qwen3-ASR在中文、英文及方言识别上领先GPT-4o等闭源API，方言错误率比Doubao-ASR低20%。此外，阿里还开源了语音强制对齐模型Qwen3-ForcedAligner-0.6B及推理框架，加速产业落地。截至目前，阿里已开源400余个模型，千问家族全球下载超10亿，衍生模型超20万，采用率达53%，位居全球第一。

原文链接

阿达旻

01-30 11:21:16

分享至

打开微信扫一扫

内容投诉

生成图片

全国首个 AI 听障康复智能体“中移无障碍”落地，手机就能练习对话

12月3日国际残疾人日，全国首个AI听障康复智能体“中移无障碍”在广州落地。该产品由中国移动研发，融合AI大模型与5G通信技术，支持电话接听、面对面沟通及语言康复训练等场景。通过个性化语音识别体系，它能精准还原语音、实时转写文字，帮助听障人士突破沟通障碍。例如，听障用户林女士借助小程序逐步改善发音并获同事认可。针对听障用户特点，系统归纳近百种构音障碍类型，平均识别率从不足30%提升至75%以上，部分用户接近90%。同时，个人专属模型可流畅运行于普通手机，降低使用门槛，并提供应急通话陪练功能，助力听障人士更好融入社会。

原文链接

神经网络领航员

12-04 19:41:48

分享至

打开微信扫一扫

内容投诉

生成图片

打破全球语言壁垒：Meta 推出支持 1600 种语言的语音识别系统并开源

2025年11月11日，Meta推出支持1600种语言的语音识别系统Omnilingual ASR并开源。该系统覆盖500种此前无AI支持的语言，大幅拓展语言范围，助力跨语言沟通。测试显示，78%的语言字符错误率低于10%，低资源语言也有36%达标。Meta同步发布包含350种代表性不足语言的语料库，采用CC-BY协议开放。系统创新‘自带语言’功能，通过少量样本即可学习新语言，理论支持扩展至5400种。模型基于PyTorch框架构建，提供多种参数版本，满足不同需求，全部以Apache 2.0协议开源。

原文链接

智慧棱镜

11-11 18:20:16

分享至

打开微信扫一扫

内容投诉

生成图片

阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌，覆盖文本、视觉、语音、视频、代码、图像全场景

2025云栖大会上，阿里集团发布六大AI模型及全新品牌“通义百聆”。新模型包括Qwen3-VL（视觉理解）、Wan2.5-Preview（音画同步视频生成）等，覆盖文本、视觉、语音、代码等全场景应用。其中，Qwen-MAX在国际榜单登顶，Qwen3-Coder优化项目级代码修复能力，通义百聆攻克企业语音模型落地难题。此外，模型强化多语言OCR、超长上下文支持、音画同步生成等能力，提升工业级编辑与跨行业适配表现。阿里CEO吴泳铭表示将加大AI基础设施投入，推进3800亿投资计划。

原文链接

DreamCoder

09-24 14:42:04

分享至

打开微信扫一扫

内容投诉

生成图片

阿里通义推新一代语音模型Fun-ASR

8月22日，阿里通义发布新一代语音识别模型Fun-ASR。该模型采用端到端设计，显著提升了上下文感知和语音转写的精准度。目前，Fun-ASR已应用于会议字幕、同声传译、智能纪要及语音助手等场景，并计划未来在阿里云百炼平台上线。这一创新技术将进一步推动语音识别领域的应用发展。

原文链接

GhostPilot

08-22 16:53:19

分享至

打开微信扫一扫

内容投诉

生成图片

钉钉联合通义推出 Fun-ASR 语音识别大模型，能听懂家装、畜牧等十大行业黑话

8月22日，钉钉与通义实验室联合推出新一代语音识别大模型Fun-ASR，可精准识别家装、畜牧等十大行业专业术语。该模型已集成至钉钉的会议字幕、智能纪要等功能模块，适用于企业级高精度语境。通过上亿小时音频数据训练，Fun-ASR在保险行业准确率提升18%，在家装、畜牧等领域提升15%-20%。新增企业自定义热词功能，支持最多1000+热词导入，并结合企业信息优化转写结果，缓解大模型幻觉问题。例如，在顾家家居的案例中，模型能准确识别“比利时进口Pulse乳胶”等行业黑话，助力客户需求分析。

原文链接

智能视野

08-22 14:52:42

分享至

打开微信扫一扫

内容投诉

生成图片

这家「套壳」AI医疗公司估值200亿

2025年，AI行业从底层大模型转向应用产品，医疗健康成为AI创业新热点。AI医疗独角兽Abridge通过解决医生文书负担问题，估值达197亿元。Abridge由心脏病专家创立，利用AI自动语音识别技术，将医生诊疗过程转录为电子病历，大幅降低文书成本。其与美国最大医疗信息化厂商Epic深度合作，集成到EMR系统中，无需医生改变工作习惯。Abridge ARR预计2024年达5000万美元，已完成2.5亿美元融资。尽管技术门槛不高，Abridge通过优化多语言支持及数据反馈提升壁垒。目前，Abridge已覆盖美国110多个医疗系统，服务16000名医生，面临激烈市场竞争。其成功经验提示，中国AI医疗企业需结合本土化需求，深耕分级诊疗与县域医疗场景。

原文链接

AI幻想空间站

05-14 09:07:00

分享至

打开微信扫一扫

内容投诉

生成图片

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

12月30日，字节跳动的豆包大模型披露了2024年的技术进展。自5月15日首次亮相以来，豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面取得显著进步，综合能力现已全面对齐GPT-4o。Doubao-pro-1215版本在数学和专业知识等复杂任务中表现更优，推理服务价格仅为GPT-4o的八分之一。豆包大模型还在图像生成、视频生成、语音识别及生成、长文本处理、代码能力等方面取得突破，支持了50多个C端应用场景，服务于30多个行业，日均tokens调用量超4万亿。

原文链接