标题:7B小模型写好学术论文,新框架告别AI引用幻觉,实测100%学生认可引用质量
学术写作常耗费大量时间查询文献引用,但通用大语言模型如ChatGPT、GPT-4易产生“引用幻觉”,即虚构文献引用,降低学术可信度。为此,加拿大滑铁卢大学与卡内基梅隆大学的研究团队推出ScholarCopilot,专为学术场景设计,力求生成精准引用的文本。
传统RAG方法“先检索、再生成”,易导致意图不匹配及引用不准确。ScholarCopilot采用“边生成、边检索”动态机制:生成时动态判断是否需要引用并插入检索信号[RET],实时检索相关文献融入生成过程,提升引用质量和相关性。其方式类似人类写作,先撰写后按需检索引用。
基于Qwen-2.5-7B模型训练的ScholarCopilot,在引用检索准确性上达40.1%,优于E5-Mistral-7B-Instruct(15.0%)和BM25(9.8%)。在论文生成质量测试中,综合得分16.2(满分25),高于更大参数量的Qwen-2.5-72B-Instruct(15.8)和Qwen-2.5-7B-Instruct(13.9)。真人评测中,10名学生对引用质量偏好率达100%,整体实用性偏好超70%。
尽管如此,ScholarCopilot仍有提升空间。用户建议加强内容生成的全面性与信息丰富度,提高创新性,以及与Overleaf等平台深度整合,支持分章节生成和光标位置预测。团队正据此优化模型。
目前,论文、代码与模型已公开,感兴趣者可访问相关资源深入了解。论文链接:https://arxiv.org/pdf/2504.00824;项目网站:https://tiger-ai-lab.github.io/ScholarCopilot/;演示视频:https://www.youtube.com/watch?v=QlY7S52sWDA。
.png)

-
2025-07-20 08:01:35
-
2025-07-19 22:57:32
-
2025-07-19 21:58:20