通义实验室提出新研究:大模型“扮演”搜索引擎提升推理能力,无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力,但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此,通义实验室开源ZeroSearch,无需与真实搜索引擎交互,仅用3B参数的LLM即可显著提升搜索能力。
ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”,让LLM生成有用和噪声文档,实现自给自足的搜索进化。它利用少量标注数据微调LLM,使其生成与真实搜索引擎风格相似的文档,并采用课程化抗噪训练,初期返回高质量文档,后期逐步增加噪声,帮助模型适应复杂检索任务。此外,ZeroSearch兼容多种强化学习算法,如PPO和GRPO,其中GRPO在稳定性上更优,PPO则更具灵活性。
实验显示,ZeroSearch在单跳和多跳问答任务中均优于现有方法,使用7B参数模型即可媲美谷歌搜索,14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本,还提高了训练的稳定性和灵活性,为大模型检索能力提升提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/18741.html
转载请注明文章出处
相关推荐
换一换
雷军宣布:小米AI人才招聘专项正式启动!
2026-03-30 16:59:23
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
张亚勤谈大模型的未来:全球不超10个 且中美将各占三四个
2026-03-18 11:06:09
阿里千问大模型换将,32岁林俊旸官宣告别
2026-03-04 10:27:38
小米最新大模型成果!罗福莉现身了
2025-10-17 16:21:28
花3000元让AI改口,大模型的尽头是广告?
2026-01-06 19:29:29
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
字节Seed发布GR-RL 首次实现真机强化学习穿鞋带
2025-12-02 14:21:13
全球首份大模型业绩报!MiniMax预判2026三大超级PMF,AI平台公司启程了
2026-03-03 11:54:49
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级
2026-03-30 01:19:37
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
Kimi春节档挣超一年钱!这口“龙虾肉”大厂开始抢吃了
2026-02-26 01:05:27
持续霸榜!阿里千问3.6Plus问鼎全球大模型调用周榜冠军
2026-04-07 12:52:26
696 文章
561092 浏览
24小时热文
更多
-
2026-04-24 23:43:31 -
2026-04-24 23:42:26 -
2026-04-24 23:41:21