标题:AI两天完成人类12年文献综述工作,准确率高出近15%
正文:
当人类科研人员还在翻阅上百个浏览器窗口时,AI已经大幅提升了文献综述的效率。医学领域中,传统的系统评价(SRs)平均耗时超16个月,成本高昂,且易导致无效或有害治疗的延续。多伦多大学和哈佛医学院等机构合作开发的AI端到端工作流程“otto-SR”,结合GPT-4.1和o3-mini模型,仅用两天就完成了需12年人类工作量的Cochrane系统评价更新。
基准测试显示,otto-SR在灵敏度(96.7% vs 81.7%)、特异度(93.9%)和数据提取准确率(93.1% vs 79.7%)上全面优于人类,同时发现54篇被遗漏的关键研究。在五项综述的评估中,otto-SR在摘要和全文筛选阶段均展现出更高的敏感性和特异性。
此外,otto-SR在七项综述的495项研究中表现出色,平均加权准确率达93.1%,远超双人评审员(79.7%)和商业工具Elicit(74.8%)。盲法评审进一步确认otto-SR的卓越性能。
针对Cochrane数据库的12篇综述复现表明,otto-SR不仅大幅缩短工作时间至48小时,还使符合条件的研究数量翻倍,新增64项研究。这项技术有望加速新疗法和公共卫生应对的速度,尤其惠及资源有限的地区。正如作者所言:“黄金标准已不再属于人类。”
原文链接
本文链接:https://kx.umi6.com/article/20325.html
转载请注明文章出处
相关推荐
换一换
腾讯VS网易,从拼游戏到拼AI
2025-08-14 21:02:49
皮尤最新研究:美国人对 AI 态度偏向谨慎或怀疑,50% 受访者表示担忧
2025-09-18 18:56:58
Figma的逆袭
2025-07-16 15:03:34
周鸿祎称不用AI的员工有理由裁掉 “对不起 不是我裁掉你 是AI时代裁掉你”
2025-09-24 12:38:45
AI里最大的Bug,也是人类文明最伟大的起点
2025-09-08 16:00:14
AI成“新业务基因”!腾讯半年净赚1034亿 Q2资本开支飙升119%
2025-08-13 22:42:51
混乱、内耗、丑闻:Meta考虑向Google、OpenAI低头
2025-08-31 15:02:37
詹姆斯・卡梅隆谈 AI:能和人类一样富有创造力,但无法拥有独特生活体验
2025-09-20 19:33:53
爆火了大半年,Agent到底能干好多少活
2025-07-29 15:34:30
宇树科技王兴兴“凡尔赛”发言:最后悔的是大学时没做AI 转去做机器人了
2025-09-11 13:55:37
消息称 ASML 承诺入股法国 AI 企业 Mistral,将成后者最大股东
2025-09-08 08:57:36
三星成立InnoX Lab 负责推进AI、人形机器人等未来业务
2025-08-04 17:05:04
“作弊幽灵”就是AI超级入口
2025-07-26 00:33:19
515 文章
238702 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35