1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

通义实验室提出新研究:大模型“扮演”搜索引擎提升推理能力,无需依赖搜索API。传统强化学习结合真实搜索引擎虽能增强大模型检索-推理能力,但面临搜索文档质量不稳定及API高频调用导致成本高昂的问题。为此,通义实验室开源ZeroSearch,无需与真实搜索引擎交互,仅用3B参数的LLM即可显著提升搜索能力。

ZeroSearch通过“模拟搜索环境+渐进式抗噪训练”,让LLM生成有用和噪声文档,实现自给自足的搜索进化。它利用少量标注数据微调LLM,使其生成与真实搜索引擎风格相似的文档,并采用课程化抗噪训练,初期返回高质量文档,后期逐步增加噪声,帮助模型适应复杂检索任务。此外,ZeroSearch兼容多种强化学习算法,如PPO和GRPO,其中GRPO在稳定性上更优,PPO则更具灵活性。

实验显示,ZeroSearch在单跳和多跳问答任务中均优于现有方法,使用7B参数模型即可媲美谷歌搜索,14B参数模型甚至超越谷歌搜索。ZeroSearch不仅大幅降低API成本,还提高了训练的稳定性和灵活性,为大模型检索能力提升提供了新方向。

原文链接
本文链接:https://kx.umi6.com/article/18741.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
大模型产生幻觉,全怪人类PUA吗?
2025-09-10 15:36:03
DeepSeek登《Nature》封面,梁文锋带队,首次回应争议
2025-09-18 13:54:10
Q2财报启示录:AI为大厂们带来了新「钱景」
2025-09-03 14:46:42
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09 16:34:57
李开复任命三位新高管:零一万物的“一把手工程”与大模型中场战事
2025-10-27 13:00:52
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
李彦宏:百度下一代旗舰大模型研发中 会在准备就绪后尽快发布
2025-08-20 21:19:28
DeepSeek新大招曝光:下一步智能体
2025-09-05 10:15:28
「今年业务是去年5倍以上」,工业智能体掀热潮
2025-08-29 12:38:30
4o-mini华人领队也离职了,这次不怪小扎
2025-08-19 16:01:05
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
24小时热文
更多
扫一扫体验小程序