通义实验室提出新研究:大模型“扮演”搜索引擎提升推理能力,无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力,但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此,通义实验室开源ZeroSearch,无需与真实搜索引擎交互,仅用3B参数的LLM即可显著提升搜索能力。
ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”,让LLM生成有用和噪声文档,实现自给自足的搜索进化。它利用少量标注数据微调LLM,使其生成与真实搜索引擎风格相似的文档,并采用课程化抗噪训练,初期返回高质量文档,后期逐步增加噪声,帮助模型适应复杂检索任务。此外,ZeroSearch兼容多种强化学习算法,如PPO和GRPO,其中GRPO在稳定性上更优,PPO则更具灵活性。
实验显示,ZeroSearch在单跳和多跳问答任务中均优于现有方法,使用7B参数模型即可媲美谷歌搜索,14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本,还提高了训练的稳定性和灵活性,为大模型检索能力提升提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/18741.html
转载请注明文章出处
相关推荐
换一换
豆包们,开始「上链接」
2025-10-27 10:54:08
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
LLM强化学习新框架!UCSD多智能体训练框架让LLM工具调用能力暴增5.8倍
2025-11-08 13:43:06
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
豆包大模型2.0正式发布
2026-02-14 14:23:01
腾讯升级大模型研发架构 前OpenAI顶尖研究员出任首席AI科学家
2025-12-17 18:59:08
鏖战2025年,大模型围着开源转
2025-12-25 18:55:44
卓世科技,股改完成!
2026-01-05 15:08:15
啊?微博7800美元训的大模型,数学能力超了DeepSeek-R1
2025-11-18 14:20:39
长三角一体化大模型发布 AI将为区域发展提供决策支撑
2026-01-12 09:40:07
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
665 文章
473500 浏览
24小时热文
更多
-
2026-03-10 13:19:24 -
2026-03-10 13:18:55 -
2026-03-10 12:13:43