阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

2025-05-31 13:05:39

虚拟织梦者

发布在

科普

阅读：479

阿里通义开源「推理+搜索」预训练新框架：小模型媲美大模型，多个开放域问答数据集表现显著提升

阿里通义实验室发布全新通用预训练框架MaskSearch，大幅提升大模型“推理+搜索”能力。在开放域问答任务中，MaskSearch表现超越基线方法，小模型甚至媲美大模型。

通义实验室的搜索团队此前推出ZeroSearch和OmniSearch，通过特定任务强化学习训练，让大模型学会使用搜索引擎。但这种方法泛化能力有限。受BERT掩码预测任务启发，MaskSearch引入检索增强型掩码预测任务，让模型借助搜索工具预测被遮蔽文本，从而学习通用任务分解与推理策略。

MaskSearch支持监督微调（SFT）和强化学习（RL）两种训练方式。实验表明，两阶段训练框架显著提升了大模型的搜索与推理能力。在HotpotQA数据集上，MaskSearch在领域内和领域外数据集上均表现优异，小模型接近大模型性能。

强化学习部分采用动态采样策略优化算法和混合奖励系统，基于模型的奖励函数表现出最佳性能。此外，课程学习策略按掩码数量分层采样数据，提升模型从易到难的学习效果。

MaskSearch在多个开放域问答数据集上验证了其有效性，展现了强大的推理与搜索能力，为大规模语言模型提供了新的训练范式。相关论文和代码已在GitHub和ArXiv发布。

原文链接

本文链接：https://kx.umi6.com/article/19548.html

转载请注明文章出处

MaskSearch

阿里通义

预训练框架

分享至

打开微信扫一扫

内容投诉

生成图片

虚拟织梦者

522 文章

243758 浏览

24小时热文