蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

2025-08-29 13:39:01

月光编码师

发布在

科普

阅读：477

标题：蚂蚁专用模型超越o3！仅用2K训练样本刷新医疗AI榜单纪录

蚂蚁集团联合研究团队发布了一款名为MedResearcher-R1的医学AI智能体，凭借仅2100条训练样本，在权威医疗基准测试MedBrowseComp中将复杂医疗任务的准确回答数量提升至27.5，刷新纪录并超越o3、Gemini 2.5 Pro等通用大模型，突破了此前25.5的业界“卡点”。

MedResearcher-R1的成功源于三大创新：数据生成、工具设计和训练方法。首先，它通过“知识指引下的轨迹合成框架（KISA）”，从3000万篇医学文献中提炼出复杂的多步推理问题，训练AI像医学专家一样逐步验证答案。其次，它配备了专属“工具箱”，直接连接国际医疗指南、核心期刊等权威数据源，避免公开网络信息的干扰。最后，采用“蒙版轨迹引导”技术，隐藏关键实体信息，逼迫AI主动调用工具完成推理，而非简单“背诵”答案。

此外，MedResearcher-R1不仅在医疗领域表现出色，在通用AI测试中也表现优异，打破了“专业模型只能干一行”的刻板印象。研究表明，小规模模型通过精准设计，同样能在垂直领域实现“以小博大”。

研究团队已将MedResearcher-R1的代码和数据集开源，旨在推动全球协同创新，加速开发下一代AI工具，助力医疗研究效率与质量提升。

官网链接：https://chat.antaq.com/
报告地址：https://arxiv.org/abs/2508.14880

原文链接

本文链接：https://kx.umi6.com/article/24412.html

转载请注明文章出处

MedResearcher-R1