阿里通义开源「推理+搜索」预训练新框架:小模型媲美大模型,多个开放域问答数据集表现显著提升
阿里通义实验室发布全新通用预训练框架MaskSearch,大幅提升大模型“推理+搜索”能力。在开放域问答任务中,MaskSearch表现超越基线方法,小模型甚至媲美大模型。
通义实验室的搜索团队此前推出ZeroSearch和OmniSearch,通过特定任务强化学习训练,让大模型学会使用搜索引擎。但这种方法泛化能力有限。受BERT掩码预测任务启发,MaskSearch引入检索增强型掩码预测任务,让模型借助搜索工具预测被遮蔽文本,从而学习通用任务分解与推理策略。
MaskSearch支持监督微调(SFT)和强化学习(RL)两种训练方式。实验表明,两阶段训练框架显著提升了大模型的搜索与推理能力。在HotpotQA数据集上,MaskSearch在领域内和领域外数据集上均表现优异,小模型接近大模型性能。
强化学习部分采用动态采样策略优化算法和混合奖励系统,基于模型的奖励函数表现出最佳性能。此外,课程学习策略按掩码数量分层采样数据,提升模型从易到难的学习效果。
MaskSearch在多个开放域问答数据集上验证了其有效性,展现了强大的推理与搜索能力,为大规模语言模型提供了新的训练范式。相关论文和代码已在GitHub和ArXiv发布。
原文链接
本文链接:https://kx.umi6.com/article/19548.html
转载请注明文章出处
相关推荐
.png)
换一换
阿里通义将发布视频生成大模型,预约页面已上线
2024-09-15 19:13:18
阿里通义发布并行计算新策略:1.6B等效4.4B,内存消耗骤降95%
2025-05-28 16:40:38
突发!曝阿里通义薄列峰离职,此前为应用视觉团队负责人
2025-05-06 15:53:06
403 文章
53681 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01