
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
8月22日,阿里通义发布新一代语音识别模型Fun-ASR。该模型采用端到端设计,显著提升了上下文感知和语音转写的精准度。目前,Fun-ASR已应用于会议字幕、同声传译、智能纪要及语音助手等场景,并计划未来在阿里云百炼平台上线。这一创新技术将进一步推动语音识别领域的应用发展。
原文链接
8月22日,钉钉与通义实验室联合推出新一代语音识别大模型Fun-ASR,可精准识别家装、畜牧等十大行业专业术语。该模型已集成至钉钉的会议字幕、智能纪要等功能模块,适用于企业级高精度语境。通过上亿小时音频数据训练,Fun-ASR在保险行业准确率提升18%,在家装、畜牧等领域提升15%-20%。新增企业自定义热词功能,支持最多1000+热词导入,并结合企业信息优化转写结果,缓解大模型幻觉问题。例如,在顾家家居的案例中,模型能准确识别“比利时进口Pulse乳胶”等行业黑话,助力客户需求分析。
原文链接
2025年6月30日,国内语音AI龙头云知声在港交所上市,医疗AI业务营收占比稳步提升。近期,全球医疗环境AI赛道迎来资本热潮,新秀Abridge完成3亿美元E轮融资,估值达53亿美元,其年内两轮融资总额超5.5亿美元。另一竞争对手Commure也在6月融资2亿美元。数据显示,过去半年内该领域完成6起融资,总额超66亿美元,并有2家企业成功IPO。医疗环境AI因能大幅减少医生文书工作时间而备受关注,但技术仍面临语义误解等挑战。与此同时,FDA和英国NHS正加强对AI转写系统的监管,未来可能纳入医疗器械管理体系。随着大模型技术推动,环境AI正从单点解决方案向全流程集成迈进,行业前景广阔。
原文链接
2025年7月1日,联发科旗下前瞻技术研究单位联发创新基地发布专为中国台湾地区用语及口音优化的AI语音识别模型MR BreezeASR 25。该模型基于OpenAI Whisper优化,在识别台湾地区用语时更准确,例如不会将‘发生什么事’误听为‘花生什么事’,同时在中英混合语境下的识别精度提升56%。相较原版Whisper,MR BreezeASR 25整体精度提升近10%。该模型已开源,采用Apache 2.0许可,适用于各类AI应用场景,有助于推动繁体中文AI应用的发展。
原文链接
2025年,AI行业从底层大模型转向应用产品,医疗健康成为AI创业新热点。AI医疗独角兽Abridge通过解决医生文书负担问题,估值达197亿元。Abridge由心脏病专家创立,利用AI自动语音识别技术,将医生诊疗过程转录为电子病历,大幅降低文书成本。其与美国最大医疗信息化厂商Epic深度合作,集成到EMR系统中,无需医生改变工作习惯。Abridge ARR预计2024年达5000万美元,已完成2.5亿美元融资。尽管技术门槛不高,Abridge通过优化多语言支持及数据反馈提升壁垒。目前,Abridge已覆盖美国110多个医疗系统,服务16000名医生,面临激烈市场竞争。其成功经验提示,中国AI医疗企业需结合本土化需求,深耕分级诊疗与县域医疗场景。
原文链接
12月30日,字节跳动的豆包大模型披露了2024年的技术进展。自5月15日首次亮相以来,豆包大模型在通用语言、视频生成、语音对话、视觉理解等方面取得显著进步,综合能力现已全面对齐GPT-4o。Doubao-pro-1215版本在数学和专业知识等复杂任务中表现更优,推理服务价格仅为GPT-4o的八分之一。豆包大模型还在图像生成、视频生成、语音识别及生成、长文本处理、代码能力等方面取得突破,支持了50多个C端应用场景,服务于30多个行业,日均tokens调用量超4万亿。
原文链接
标题:狂飙的AI眼镜,能火多久?
一款眼镜,让你无论身处英国、法国还是意大利,都不用担心语言不通,它能将对方说的任何语言实时翻译成你熟悉的文字,甚至广告牌上的内容也能直接显示在镜片上。这款眼镜不仅能实时拍照、录制视频,还能召唤音乐、导航等功能,几乎涵盖了手机上的所有操作。
这款眼镜不笨重,外观类似墨...
原文链接
以下是去除链接后的文本:
正文:中国电信人工智能研究院(TeleAI)于今年5月发布的业内首个支持30种方言自由混说的语音识别大模型,近日再度升级。此次升级不仅新增了湛江话、宜宾话、洛阳话、烟台话等10种方言,使总方言种类达到40种,还首次引入了对英语的识别功能。相较于传统方法,TeleAI采用预训练结合少量有标注数据微调的方式,显著降低了对人工标注数据的需求,减少约50倍,同时保持了与有监督训练模型相当的效果。此升级提升了语音识别的多样性和实用性,适用于更多地区和语言环境。此次更新于11月发布,进一步增强了TeleAI星辰语音大模型的功能和适用范围。
原文链接
汉王科技于10月31日推出全新MOUNTAIN系列手写办公本M10(10.3英寸)与M10 Mini(8.2英寸)。该系列产品强调回归人类原生的交互方式,支持手写、语音及识图等自然高效办公方式。M10搭载国产旗舰级8核处理器和8+128GB内存组合,配备8个高灵敏度麦克风阵列及800万像素办公专用摄像头,支持8米远场语音识别,中文数据库测试正确率达98.06%。此外,M10支持离线会议转写,并能通过简单的提示词生成高质量文章、PPT大纲等内容。M10还配备了300PPI快刷墨水屏,支持多种操作模式及PDF自动排版功能,支持多语言互译。价格方面,M10 8+128GB版本售价4199元,M10 Mini 4+64GB版本售价2699元。此次发布标志着“原生办公”新时代的到来。
原文链接
7月12日至9月13日,日本大阪的JR大阪站和阪急大阪梅田站将试验部署新型实时语音识别系统YYSystem,支持23种语言翻译,旨在提升乘客体验,特别是对入境旅客和听障人士。系统通过AI技术,实现对话即时翻译,并在透明显示屏上显示,配有定向麦克风。测试期间将收集数据,评估系统对常用词语的响应能力,目标是赶在2023年大阪-关西世博会前投入应用。这套系统最初由AISIN为内部听障员工开发,现已拓展至多语言服务,设于大阪车站铁路信息中心及阪急梅田站的多个问讯处。
原文链接
加载更多

暂无内容