1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
阶跃StepAudio 2.5 ASR上线 支持500TPS极速推理
4月24日,阶跃发布新一代自动语音识别模型StepAudio 2.5 ASR,首次将大语言模型推理加速技术引入语音识别领域。基于ASR+MTP-5深度融合架构,新模型实现推理速度提升400%、时延降低60%,推理峰值达500 tokens/s,成本下降80%。约5分钟的音视频可瞬间完成转写,大幅提升效率。(记者 黄心怡)
智能维度跳跃
04-24 14:19:56
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义实验室推出语音识别大模型Fun-ASR1.5
4月20日,阿里通义实验室发布语音识别大模型Fun-ASR1.5。该模型基于统一架构,单模型即可支持30种语言、汉语七大方言体系及20多种地方口音,甚至能精准转写古诗词吟诵。测试结果显示,在典型方言场景中,字错误率(CER)相对下降56.2%。目前,已有5种方言识别准确率突破90%,15种方言超过80%。这一技术突破显著提升了多语言和多方言场景下的语音识别能力,为用户提供更高效的语音转写服务。
智能视野
04-20 15:12:20
分享至
打开微信扫一扫
内容投诉
生成图片
千问语音识别模型Qwen3-ASR开源!饶舌RAP歌曲也能轻松识别
1月29日,阿里开源千问语音识别模型Qwen3-ASR系列,性能达开源最佳(SOTA),直逼顶级闭源模型。该模型支持52种语言与方言,可精准识别语速快的饶舌RAP歌曲,并在10秒内处理5小时音频。此次开源包括1.7B和0.6B两个版本,前者准确率极高,后者效率与性能平衡,适合端侧部署。Qwen3-ASR在中文、英文及方言识别上领先GPT-4o等闭源API,方言错误率比Doubao-ASR低20%。此外,阿里还开源了语音强制对齐模型Qwen3-ForcedAligner-0.6B及推理框架,加速产业落地。截至目前,阿里已开源400余个模型,千问家族全球下载超10亿,衍生模型超20万,采用率达53%,位居全球第一。
阿达旻
01-30 11:21:16
分享至
打开微信扫一扫
内容投诉
生成图片
全国首个 AI 听障康复智能体“中移无障碍”落地,手机就能练习对话
12月3日国际残疾人日,全国首个AI听障康复智能体“中移无障碍”在广州落地。该产品由中国移动研发,融合AI大模型与5G通信技术,支持电话接听、面对面沟通及语言康复训练等场景。通过个性化语音识别体系,它能精准还原语音、实时转写文字,帮助听障人士突破沟通障碍。例如,听障用户林女士借助小程序逐步改善发音并获同事认可。针对听障用户特点,系统归纳近百种构音障碍类型,平均识别率从不足30%提升至75%以上,部分用户接近90%。同时,个人专属模型可流畅运行于普通手机,降低使用门槛,并提供应急通话陪练功能,助力听障人士更好融入社会。
神经网络领航员
12-04 19:41:48
分享至
打开微信扫一扫
内容投诉
生成图片
打破全球语言壁垒:Meta 推出支持 1600 种语言的语音识别系统并开源
2025年11月11日,Meta推出支持1600种语言的语音识别系统Omnilingual ASR并开源。该系统覆盖500种此前无AI支持的语言,大幅拓展语言范围,助力跨语言沟通。测试显示,78%的语言字符错误率低于10%,低资源语言也有36%达标。Meta同步发布包含350种代表性不足语言的语料库,采用CC-BY协议开放。系统创新‘自带语言’功能,通过少量样本即可学习新语言,理论支持扩展至5400种。模型基于PyTorch框架构建,提供多种参数版本,满足不同需求,全部以Apache 2.0协议开源。
智慧棱镜
11-11 18:20:16
分享至
打开微信扫一扫
内容投诉
生成图片
阿里云栖大会一口气发布千问 3-VL、万相 2.5 等六大模型 + 通义百聆新品牌,覆盖文本、视觉、语音、视频、代码、图像全场景
2025云栖大会上,阿里集团发布六大AI模型及全新品牌“通义百聆”。新模型包括Qwen3-VL(视觉理解)、Wan2.5-Preview(音画同步视频生成)等,覆盖文本、视觉、语音、代码等全场景应用。其中,Qwen-MAX在国际榜单登顶,Qwen3-Coder优化项目级代码修复能力,通义百聆攻克企业语音模型落地难题。此外,模型强化多语言OCR、超长上下文支持、音画同步生成等能力,提升工业级编辑与跨行业适配表现。阿里CEO吴泳铭表示将加大AI基础设施投入,推进3800亿投资计划。
DreamCoder
09-24 14:42:04
分享至
打开微信扫一扫
内容投诉
生成图片
阿里通义推新一代语音模型Fun-ASR
8月22日,阿里通义发布新一代语音识别模型Fun-ASR。该模型采用端到端设计,显著提升了上下文感知和语音转写的精准度。目前,Fun-ASR已应用于会议字幕、同声传译、智能纪要及语音助手等场景,并计划未来在阿里云百炼平台上线。这一创新技术将进一步推动语音识别领域的应用发展。
GhostPilot
08-22 16:53:19
分享至
打开微信扫一扫
内容投诉
生成图片
钉钉联合通义推出 Fun-ASR 语音识别大模型,能听懂家装、畜牧等十大行业黑话
8月22日,钉钉与通义实验室联合推出新一代语音识别大模型Fun-ASR,可精准识别家装、畜牧等十大行业专业术语。该模型已集成至钉钉的会议字幕、智能纪要等功能模块,适用于企业级高精度语境。通过上亿小时音频数据训练,Fun-ASR在保险行业准确率提升18%,在家装、畜牧等领域提升15%-20%。新增企业自定义热词功能,支持最多1000+热词导入,并结合企业信息优化转写结果,缓解大模型幻觉问题。例如,在顾家家居的案例中,模型能准确识别“比利时进口Pulse乳胶”等行业黑话,助力客户需求分析。
智能视野
08-22 14:52:42
分享至
打开微信扫一扫
内容投诉
生成图片
这家「套壳」AI医疗公司估值200亿
2025年,AI行业从底层大模型转向应用产品,医疗健康成为AI创业新热点。AI医疗独角兽Abridge通过解决医生文书负担问题,估值达197亿元。Abridge由心脏病专家创立,利用AI自动语音识别技术,将医生诊疗过程转录为电子病历,大幅降低文书成本。其与美国最大医疗信息化厂商Epic深度合作,集成到EMR系统中,无需医生改变工作习惯。Abridge ARR预计2024年达5000万美元,已完成2.5亿美元融资。尽管技术门槛不高,Abridge通过优化多语言支持及数据反馈提升壁垒。目前,Abridge已覆盖美国110多个医疗系统,服务16000名医生,面临激烈市场竞争。其成功经验提示,中国AI医疗企业需结合本土化需求,深耕分级诊疗与县域医疗场景。
AI幻想空间站
05-14 09:07:00
分享至
打开微信扫一扫
内容投诉
生成图片
豆包大模型披露2024技术进展,亮相7个月综合能力全面对齐GPT-4o
12月30日,字节跳动的豆包大模型披露了2024年的技术进展。自5月15日首次亮相以来,豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面取得显著进步,综合能力现已全面对齐GPT-4o。Doubao-pro-1215版本在数学和专业知识等复杂任务中表现更优,推理服务价格仅为GPT-4o的八分之一。豆包大模型还在图像生成、视频生成、语音识别及生成、长文本处理、代码能力等方面取得突破,支持了50多个C端应用场景,服务于30多个行业,日均tokens调用量超4万亿。
未来笔触
12-30 15:18:52
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序