通义实验室提出新研究:大模型“扮演”搜索引擎提升推理能力,无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力,但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此,通义实验室开源ZeroSearch,无需与真实搜索引擎交互,仅用3B参数的LLM即可显著提升搜索能力。
ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”,让LLM生成有用和噪声文档,实现自给自足的搜索进化。它利用少量标注数据微调LLM,使其生成与真实搜索引擎风格相似的文档,并采用课程化抗噪训练,初期返回高质量文档,后期逐步增加噪声,帮助模型适应复杂检索任务。此外,ZeroSearch兼容多种强化学习算法,如PPO和GRPO,其中GRPO在稳定性上更优,PPO则更具灵活性。
实验显示,ZeroSearch在单跳和多跳问答任务中均优于现有方法,使用7B参数模型即可媲美谷歌搜索,14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本,还提高了训练的稳定性和灵活性,为大模型检索能力提升提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/18741.html
转载请注明文章出处
相关推荐
换一换
阶跃星辰杀入季后赛,强势跻身AI“新六小虎”第一梯队
2026-02-27 15:48:37
舔狗AI和被预约的寿司郎
2026-06-05 00:34:31
独家|百度成立模型委员会(BMC) 加强人工智能技术优势
2026-05-15 10:39:37
从 CIPS & CLM 迈进:中国大模型的智能跃迁
2025-10-30 17:51:34
Dwarkesh最新播客:AI 进展年终总结
2025-12-25 18:54:19
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
2026-02-24 14:48:42
杨植麟当主持人的大模型圆桌:张鹏罗福莉夏立雪都放开说了
2026-03-27 23:23:11
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
腾讯混元大模型品牌 Hunyuan 更名为 HY
2025-12-10 15:53:58
Cursor发布首个编程大模型!代码生成250tokens/秒,强化学习+MoE架构
2025-10-30 10:33:49
腾讯调整大模型组织架构:姚顺雨加盟,向总裁刘炽平汇报
2025-12-18 15:51:59
打破代码大模型训练瓶颈:MicroCoder将算法数据框架训练经验升级
2026-03-30 01:19:37
715 文章
640197 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08