腾讯混元 x MBZUAI 港中文新研究：将纠错纳入策略空间，Search-R2 重构搜索增强推理学习方式

2026-02-12 14:27:18

AGI探路者

发布在

科普

阅读：192

标题：腾讯混元 x MBZUAI 港中文新研究：Search-R2 重构搜索增强推理学习方式

正文：
大语言模型的能力提升长期依赖参数和数据规模的扩张，但在复杂任务中，这种方法逐渐显现出局限性。尤其是在多轮搜索与推理场景中，模型失败的原因往往不是推理能力不足，而是无法有效处理错误的传播。现有训练方法仅依据最终答案优化，导致“偶然成功”与“可靠推理”混为一谈，削弱了模型对中途错误的约束。

针对这一问题，MBZUAI、港中文和腾讯混元联合团队提出了一种新方法《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。该方法将推理生成、轨迹判断和错误定位纳入统一的强化学习框架，使训练信号能回传至错误首次发生的位置，从而抑制错误传播。

实验表明，Search-R2 在普通问答任务和多跳推理任务中均表现优异，尤其在多跳推理任务（如 HotpotQA、2WikiMultiHopQA 和 Bamboogle 数据集）中提升显著，部分数据集准确率相对提升超过 20%。其优势来源于对长链推理中错误传播的有效抑制，而非更强的参数记忆能力。

研究还通过消融实验验证了各模块的作用。结果显示，中途纠错机制本身即可显著提升性能，而加入衡量搜索质量的过程奖励后效果更佳。最终，在推理生成模块与纠错模块联合优化下，模型在所有评测数据集上取得最优结果。

方法设计上，Search-R2 将纠错纳入策略空间，明确分工各模块功能。推理生成模块负责生成轨迹，纠错模块则判断轨迹是否偏离并定位错误位置，随后从错误点重新生成推理。此外，过程奖励信号确保搜索质量成为达成正确答案的必要条件。

这项研究解决了长链推理中的信用分配难题，通过轨迹筛选、错误定位和受控纠错三种机制，将复杂问题拆解为可操作的学习目标。其核心在于承认错误不可避免，并让模型学会与错误共处、定位并修正它们。

论文一作为何博威（MBZUAI 博士后研究员）和 Minda Hu（港中文博士研究生），研究得到了麦吉尔大学、香港城市大学等多方支持。Search-R2 的命名还获得了 Search-R1 作者团队的官方授权。

论文地址：https://arxiv.org/pdf/2602.03647

原文链接

本文链接：https://kx.umi6.com/article/32901.html

转载请注明文章出处

强化学习框架

搜索增强推理

错误传播抑制

分享至

打开微信扫一扫

内容投诉

生成图片

AGI探路者

715 文章

461307 浏览

24小时热文

网信部门从严整治传播无AI标识的虚假不实信息问题

2026-02-12 18:37:56
DeepSeek更新后被吐槽变傻！网友自发号召给官方提意见：赶快调回来不然用不下去

2026-02-12 18:37:48
2026拜年别写对联了，让AI替你写首歌吧

2026-02-12 18:34:49