语音识别 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

半年融资66亿+，这个赛道批量制造独角兽

2025年6月30日，国内语音AI龙头云知声在港交所上市，医疗AI业务营收占比稳步提升。近期，全球医疗环境AI赛道迎来资本热潮，新秀Abridge完成3亿美元E轮融资，估值达53亿美元，其年内两轮融资总额超5.5亿美元。另一竞争对手Commure也在6月融资2亿美元。数据显示，过去半年内该领域完成6起融资，总额超66亿美元，并有2家企业成功IPO。医疗环境AI因能大幅减少医生文书工作时间而备受关注，但技术仍面临语义误解等挑战。与此同时，FDA和英国NHS正加强对AI转写系统的监管，未来可能纳入医疗器械管理体系。随着大模型技术推动，环境AI正从单点解决方案向全流程集成迈进，行业前景广阔。

原文链接

蝶舞CyberSwirl

07-06 03:07:34

医疗环境AI

融资

语音识别技术

分享至

打开微信扫一扫

内容投诉

生成图片

联发科推出专为中国台湾地区用语及口音设计的开源 AI 语音识别模型

2025年7月1日，联发科旗下前瞻技术研究单位联发创新基地发布专为中国台湾地区用语及口音优化的AI语音识别模型MR BreezeASR 25。该模型基于OpenAI Whisper优化，在识别台湾地区用语时更准确，例如不会将‘发生什么事’误听为‘花生什么事’，同时在中英混合语境下的识别精度提升56%。相较原版Whisper，MR BreezeASR 25整体精度提升近10%。该模型已开源，采用Apache 2.0许可，适用于各类AI应用场景，有助于推动繁体中文AI应用的发展。

原文链接

梦境编程师

07-03 09:51:34

中国台湾地区

联发科

语音识别模型

分享至

打开微信扫一扫

内容投诉

生成图片

这家「套壳」AI医疗公司估值200亿

2025年，AI行业从底层大模型转向应用产品，医疗健康成为AI创业新热点。AI医疗独角兽Abridge通过解决医生文书负担问题，估值达197亿元。Abridge由心脏病专家创立，利用AI自动语音识别技术，将医生诊疗过程转录为电子病历，大幅降低文书成本。其与美国最大医疗信息化厂商Epic深度合作，集成到EMR系统中，无需医生改变工作习惯。Abridge ARR预计2024年达5000万美元，已完成2.5亿美元融资。尽管技术门槛不高，Abridge通过优化多语言支持及数据反馈提升壁垒。目前，Abridge已覆盖美国110多个医疗系统，服务16000名医生，面临激烈市场竞争。其成功经验提示，中国AI医疗企业需结合本土化需求，深耕分级诊疗与县域医疗场景。

原文链接

AI幻想空间站

05-14 09:07:00

AI医疗

独角兽

语音识别

分享至

打开微信扫一扫

内容投诉

生成图片

豆包大模型披露2024技术进展，亮相7个月综合能力全面对齐GPT-4o

12月30日，字节跳动的豆包大模型披露了2024年的技术进展。自5月15日首次亮相以来，豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面取得显著进步，综合能力现已全面对齐GPT-4o。Doubao-pro-1215版本在数学和专业知识等复杂任务中表现更优，推理服务价格仅为GPT-4o的八分之一。豆包大模型还在图像生成、视频生成、语音识别及生成、长文本处理、代码能力等方面取得突破，支持了50多个C端应用场景，服务于30多个行业，日均tokens调用量超4万亿。

原文链接

未来笔触

12-30 15:18:52

GPT-4o

语音识别

豆包大模型

分享至

打开微信扫一扫

内容投诉

生成图片

狂飙的AI眼镜，能火多久？

标题：狂飙的AI眼镜，能火多久？一款眼镜，让你无论身处英国、法国还是意大利，都不用担心语言不通，它能将对方说的任何语言实时翻译成你熟悉的文字，甚至广告牌上的内容也能直接显示在镜片上。这款眼镜不仅能实时拍照、录制视频，还能召唤音乐、导航等功能，几乎涵盖了手机上的所有操作。这款眼镜不笨重，外观类似墨...

原文链接

量子黑客

12-03 12:16:10

AI眼镜

智能眼镜

语音识别

分享至

打开微信扫一扫

内容投诉

生成图片

支持中英双语及 40 种方言任意混说，中国电信 TeleAI 星辰语音大模型升级

以下是去除链接后的文本：正文：中国电信人工智能研究院（TeleAI）于今年5月发布的业内首个支持30种方言自由混说的语音识别大模型，近日再度升级。此次升级不仅新增了湛江话、宜宾话、洛阳话、烟台话等10种方言，使总方言种类达到40种，还首次引入了对英语的识别功能。相较于传统方法，TeleAI采用预训练结合少量有标注数据微调的方式，显著降低了对人工标注数据的需求，减少约50倍，同时保持了与有监督训练模型相当的效果。此升级提升了语音识别的多样性和实用性，适用于更多地区和语言环境。此次更新于11月发布，进一步增强了TeleAI星辰语音大模型的功能和适用范围。

原文链接

智慧轨迹

11-05 14:25:40

中国电信

方言

语音识别

分享至

打开微信扫一扫

内容投诉

生成图片

2699元起！汉王科技发布MOUNTAIN系列办公本：8米远还能语音识别

汉王科技于10月31日推出全新MOUNTAIN系列手写办公本M10（10.3英寸）与M10 Mini（8.2英寸）。该系列产品强调回归人类原生的交互方式，支持手写、语音及识图等自然高效办公方式。M10搭载国产旗舰级8核处理器和8+128GB内存组合，配备8个高灵敏度麦克风阵列及800万像素办公专用摄像头，支持8米远场语音识别，中文数据库测试正确率达98.06%。此外，M10支持离线会议转写，并能通过简单的提示词生成高质量文章、PPT大纲等内容。M10还配备了300PPI快刷墨水屏，支持多种操作模式及PDF自动排版功能，支持多语言互译。价格方面，M10 8+128GB版本售价4199元，M10 Mini 4+64GB版本售价2699元。此次发布标志着“原生办公”新时代的到来。

原文链接

DreamCoder

10-31 19:55:48

办公本

汉王科技

语音识别

分享至

打开微信扫一扫

内容投诉

生成图片

日本大阪将在多座车站部署实时语音识别系统：透明显示屏形态，支持 23 种语言翻译

7月12日至9月13日，日本大阪的JR大阪站和阪急大阪梅田站将试验部署新型实时语音识别系统YYSystem，支持23种语言翻译，旨在提升乘客体验，特别是对入境旅客和听障人士。系统通过AI技术，实现对话即时翻译，并在透明显示屏上显示，配有定向麦克风。测试期间将收集数据，评估系统对常用词语的响应能力，目标是赶在2023年大阪-关西世博会前投入应用。这套系统最初由AISIN为内部听障员工开发，现已拓展至多语言服务，设于大阪车站铁路信息中心及阪急梅田站的多个问讯处。

原文链接

代码编织者Nexus

07-05 12:43:41

AI翻译

大阪车站

实时语音识别系统

分享至

打开微信扫一扫

内容投诉

生成图片

讯飞星火4.0霸榜八个榜单，大秀语音识别遭有预谋干扰

讯飞星火4.0在科大讯飞发布会上强势登顶八个榜单，展示强大语音识别能力，可在嘈杂环境下准确理解并转文字，全面对标GPT-4 Turbo。新版本7大底座能力提升，包括文本生成、逻辑推理等，国际测试中取得8项第一。升级的星火APP/Desk和语音大模型引入内容溯源功能，降低大模型误识，且支持多语种自由对话。在教育、医疗等领域展现实用价值，如智能批阅、个性化健康助手等。科大讯飞强调AI助手的实用性和自主可控性，星火4.0是官方认证的全民开放大模型，基于国产万卡算力集群“飞星一号”打造，推动中国建立自主可控的通用大模型底座。

原文链接

量子黑客

06-28 23:10:41

自主可控

讯飞星火4.0

语音识别

分享至

打开微信扫一扫

内容投诉

生成图片

中国电信发布首个支持30种方言混说语音大模型

中国电信近日发布国内首个支持30种方言混说的语音识别大模型——星辰超多方言语音识别大模型。该模型打破传统限制，能理解粤语、上海话等多种方言，由人工智能研究院研发，采用"蒸馏+膨胀"算法解决大规模参数训练问题。星辰模型是业界首个开源的基于离散语音表征的语音识别大模型，显著降低推理时的语音传输比特率。目前已在多地中国电信万号智能客服试点应用，展现先进技术的时效性。

原文链接