通义实验室提出新研究:大模型“扮演”搜索引擎提升推理能力,无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力,但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此,通义实验室开源ZeroSearch,无需与真实搜索引擎交互,仅用3B参数的LLM即可显著提升搜索能力。
ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”,让LLM生成有用和噪声文档,实现自给自足的搜索进化。它利用少量标注数据微调LLM,使其生成与真实搜索引擎风格相似的文档,并采用课程化抗噪训练,初期返回高质量文档,后期逐步增加噪声,帮助模型适应复杂检索任务。此外,ZeroSearch兼容多种强化学习算法,如PPO和GRPO,其中GRPO在稳定性上更优,PPO则更具灵活性。
实验显示,ZeroSearch在单跳和多跳问答任务中均优于现有方法,使用7B参数模型即可媲美谷歌搜索,14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本,还提高了训练的稳定性和灵活性,为大模型检索能力提升提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/18741.html
转载请注明文章出处
相关推荐
.png)
换一换
大模型开始打王者荣耀了
2025-09-02 12:31:33
大厂「AI」智能体,等待 DeepSeek 时刻
2025-07-31 11:05:08
智谱旗舰模型GLM-4.5重磅发布 相关企业有望站上风口
2025-07-29 08:27:00
字节对大模型方向加码期权激励 核心技术员工最高可获百万元
2025-09-03 15:50:37
GPT-5能让普通人变成博士,但魔法依旧没有
2025-08-08 12:10:14
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
DeepSeek-R1 论文登上《自然》封面,通讯作者为梁文锋
2025-09-18 09:48:42
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
字节跳动、阿里AI“大将”出走
2025-08-25 22:35:04
阿里字节腾讯,集体重仓新风口
2025-10-17 14:18:54
大模型低调出展,机器人各出奇招
2025-07-26 22:49:04
545 文章
268060 浏览
24小时热文
更多

-
2025-10-24 01:20:07
-
2025-10-24 00:18:56
-
2025-10-23 21:15:29