通义实验室提出新研究:大模型“扮演”搜索引擎提升推理能力,无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力,但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此,通义实验室开源ZeroSearch,无需与真实搜索引擎交互,仅用3B参数的LLM即可显著提升搜索能力。
ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”,让LLM生成有用和噪声文档,实现自给自足的搜索进化。它利用少量标注数据微调LLM,使其生成与真实搜索引擎风格相似的文档,并采用课程化抗噪训练,初期返回高质量文档,后期逐步增加噪声,帮助模型适应复杂检索任务。此外,ZeroSearch兼容多种强化学习算法,如PPO和GRPO,其中GRPO在稳定性上更优,PPO则更具灵活性。
实验显示,ZeroSearch在单跳和多跳问答任务中均优于现有方法,使用7B参数模型即可媲美谷歌搜索,14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本,还提高了训练的稳定性和灵活性,为大模型检索能力提升提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/18741.html
转载请注明文章出处
相关推荐
.png)
换一换
中国企业调用大模型日均超10万亿Tokens
2025-09-01 12:17:48
消费电子将被大模型重新定义?云天励飞董事长陈宁:看好推理算力需求的爆发 全面押注AI芯片
2025-07-25 11:23:59
31亿!我国大模型应用个人用户注册“爆表” 竟超全国人口规模2倍多
2025-07-31 12:06:11
大模型又迎来重要玩家!美团首个开源大模型来了
2025-09-01 18:28:28
我不给人做产品,给Agent做
2025-06-30 08:39:41
最新 AGI 暴论:强化学习的「GPT-3 时刻」实现,还需要 1 万年?
2025-07-14 17:29:16
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
IDC评测9家座舱大模型产品 斑马获最多项满分推荐
2025-07-18 11:36:59
任务级奖励提升App Agent思考力,淘天提出Mobile-R1,3B模型可超32B
2025-07-20 15:05:31
百度生成式AI和大模型专利中国第一,全栈创新驱动AI应用领先
2025-07-18 16:41:37
讯飞星火 X1 升级版模型宣布上线:整体效果对标 OpenAI o3 等国内外一流大模型
2025-07-25 14:25:03
大模型再「战」高考:从一本直升 985
2025-06-27 09:05:45
493 文章
163522 浏览
24小时热文
更多

-
2025-09-07 00:40:01
-
2025-09-06 23:39:46
-
2025-09-06 22:39:24