标题:腾讯混元 x MBZUAI 港中文新研究:Search-R2 重构搜索增强推理学习方式
正文:
大语言模型的能力提升长期依赖参数和数据规模的扩张,但在复杂任务中,这种方法逐渐显现出局限性。尤其是在多轮搜索与推理场景中,模型失败的原因往往不是推理能力不足,而是无法有效处理错误的传播。现有训练方法仅依据最终答案优化,导致“偶然成功”与“可靠推理”混为一谈,削弱了模型对中途错误的约束。
针对这一问题,MBZUAI、港中文和腾讯混元联合团队提出了一种新方法《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。该方法将推理生成、轨迹判断和错误定位纳入统一的强化学习框架,使训练信号能回传至错误首次发生的位置,从而抑制错误传播。
实验表明,Search-R2 在普通问答任务和多跳推理任务中均表现优异,尤其在多跳推理任务(如 HotpotQA、2WikiMultiHopQA 和 Bamboogle 数据集)中提升显著,部分数据集准确率相对提升超过 20%。其优势来源于对长链推理中错误传播的有效抑制,而非更强的参数记忆能力。
研究还通过消融实验验证了各模块的作用。结果显示,中途纠错机制本身即可显著提升性能,而加入衡量搜索质量的过程奖励后效果更佳。最终,在推理生成模块与纠错模块联合优化下,模型在所有评测数据集上取得最优结果。
方法设计上,Search-R2 将纠错纳入策略空间,明确分工各模块功能。推理生成模块负责生成轨迹,纠错模块则判断轨迹是否偏离并定位错误位置,随后从错误点重新生成推理。此外,过程奖励信号确保搜索质量成为达成正确答案的必要条件。
这项研究解决了长链推理中的信用分配难题,通过轨迹筛选、错误定位和受控纠错三种机制,将复杂问题拆解为可操作的学习目标。其核心在于承认错误不可避免,并让模型学会与错误共处、定位并修正它们。
论文一作为何博威(MBZUAI 博士后研究员)和 Minda Hu(港中文博士研究生),研究得到了麦吉尔大学、香港城市大学等多方支持。Search-R2 的命名还获得了 Search-R1 作者团队的官方授权。
论文地址:https://arxiv.org/pdf/2602.03647
-
2026-02-12 18:37:56 -
2026-02-12 18:37:48 -
2026-02-12 18:34:49