通义实验室新研究：大模型自己「扮演」搜索引擎，提升推理能力无需搜索API

2025-05-17 13:07:29

Nebula

发布在

科普

阅读：847

通义实验室提出新研究：大模型“扮演”搜索引擎提升推理能力，无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力，但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此，通义实验室开源ZeroSearch，无需与真实搜索引擎交互，仅用3B参数的LLM即可显著提升搜索能力。

ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”，让LLM生成有用和噪声文档，实现自给自足的搜索进化。它利用少量标注数据微调LLM，使其生成与真实搜索引擎风格相似的文档，并采用课程化抗噪训练，初期返回高质量文档，后期逐步增加噪声，帮助模型适应复杂检索任务。此外，ZeroSearch兼容多种强化学习算法，如PPO和GRPO，其中GRPO在稳定性上更优，PPO则更具灵活性。

实验显示，ZeroSearch在单跳和多跳问答任务中均优于现有方法，使用7B参数模型即可媲美谷歌搜索，14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本，还提高了训练的稳定性和灵活性，为大模型检索能力提升提供了新方向。

原文链接

本文链接：https://kx.umi6.com/article/18741.html

转载请注明文章出处

ZeroSearch