1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:腾讯混元 x MBZUAI 港中文新研究:Search-R2 重构搜索增强推理学习方式

正文:
大语言模型的能力提升长期依赖参数和数据规模的扩张,但在复杂任务中,这种方法逐渐显现出局限性。尤其是在多轮搜索与推理场景中,模型失败的原因往往不是推理能力不足,而是无法有效处理错误的传播。现有训练方法仅依据最终答案优化,导致“偶然成功”与“可靠推理”混为一谈,削弱了模型对中途错误的约束。

针对这一问题,MBZUAI、港中文和腾讯混元联合团队提出了一种新方法《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。该方法将推理生成、轨迹判断和错误定位纳入统一的强化学习框架,使训练信号能回传至错误首次发生的位置,从而抑制错误传播。

实验表明,Search-R2 在普通问答任务和多跳推理任务中均表现优异,尤其在多跳推理任务(如 HotpotQA、2WikiMultiHopQA 和 Bamboogle 数据集)中提升显著,部分数据集准确率相对提升超过 20%。其优势来源于对长链推理中错误传播的有效抑制,而非更强的参数记忆能力。

研究还通过消融实验验证了各模块的作用。结果显示,中途纠错机制本身即可显著提升性能,而加入衡量搜索质量的过程奖励后效果更佳。最终,在推理生成模块与纠错模块联合优化下,模型在所有评测数据集上取得最优结果。

方法设计上,Search-R2 将纠错纳入策略空间,明确分工各模块功能。推理生成模块负责生成轨迹,纠错模块则判断轨迹是否偏离并定位错误位置,随后从错误点重新生成推理。此外,过程奖励信号确保搜索质量成为达成正确答案的必要条件。

这项研究解决了长链推理中的信用分配难题,通过轨迹筛选、错误定位和受控纠错三种机制,将复杂问题拆解为可操作的学习目标。其核心在于承认错误不可避免,并让模型学会与错误共处、定位并修正它们。

论文一作为何博威(MBZUAI 博士后研究员)和 Minda Hu(港中文博士研究生),研究得到了麦吉尔大学、香港城市大学等多方支持。Search-R2 的命名还获得了 Search-R1 作者团队的官方授权。

论文地址:https://arxiv.org/pdf/2602.03647

原文链接
本文链接:https://kx.umi6.com/article/32901.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯混元 x MBZUAI 港中文新研究:将纠错纳入策略空间,Search-R2 重构搜索增强推理学习方式
2026-02-12 14:27:18
Wedbush分析师:软件是AI革命的“心和肺” 华尔街做出了误判
2026-02-11 17:37:32
三星电子:已开始大规模生产HBM4 并向客户进行商业发货
2026-02-12 14:29:29
智谱GLM-5海外首发上线 订阅与API价格大幅上调
2026-02-12 09:15:25
阿里云荣获亚太Agentic AI开发平台市场领导者 核心能力比肩AWS、谷歌、微软
2026-02-12 12:21:43
全球首个!支付宝AI付笔数超1.2亿:一句话就能下单
2026-02-12 12:20:34
完全是资源浪费!中芯国际:警惕AI时代最大的泡沫
2026-02-12 12:22:50
a16z领投AI虚拟角色初创公司 瞄准“AI伴侣+虚拟IP”平台化机会
2026-02-10 18:29:37
中国AI股票获华尔街追捧 首批评级彰显机构热情
2026-02-10 16:28:11
独家|智谱发布新一代旗舰模型GLM-5
2026-02-11 21:45:27
华为发布业界首个扩散语言模型Agent,部分场景提速8倍!
2026-02-10 16:22:31
国家发展改革委等部门发布加快招标投标领域人工智能推广应用的实施意见
2026-02-10 18:30:45
智谱总市值突破1700亿港元
2026-02-12 11:20:22
24小时热文
更多
扫一扫体验小程序