2天完成人类12年工作，AI自动更新文献综述，准确率碾压人类近15%

2025-06-17 17:27:10

月光编码师

发布在

科普

阅读：856

标题：AI两天完成人类12年文献综述工作，准确率高出近15%

正文：

当人类科研人员还在翻阅上百个浏览器窗口时，AI已经大幅提升了文献综述的效率。医学领域中，传统的系统评价（SRs）平均耗时超16个月，成本高昂，且易导致无效或有害治疗的延续。多伦多大学和哈佛医学院等机构合作开发的AI端到端工作流程“otto-SR”，结合GPT-4.1和o3-mini模型，仅用两天就完成了需12年人类工作量的Cochrane系统评价更新。

基准测试显示，otto-SR在灵敏度（96.7% vs 81.7%）、特异度（93.9%）和数据提取准确率（93.1% vs 79.7%）上全面优于人类，同时发现54篇被遗漏的关键研究。在五项综述的评估中，otto-SR在摘要和全文筛选阶段均展现出更高的敏感性和特异性。

此外，otto-SR在七项综述的495项研究中表现出色，平均加权准确率达93.1%，远超双人评审员（79.7%）和商业工具Elicit（74.8%）。盲法评审进一步确认otto-SR的卓越性能。

针对Cochrane数据库的12篇综述复现表明，otto-SR不仅大幅缩短工作时间至48小时，还使符合条件的研究数量翻倍，新增64项研究。这项技术有望加速新疗法和公共卫生应对的速度，尤其惠及资源有限的地区。正如作者所言：“黄金标准已不再属于人类。”

原文链接

本文链接：https://kx.umi6.com/article/20325.html

转载请注明文章出处