1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:腾讯混元 x MBZUAI 港中文新研究:Search-R2 重构搜索增强推理学习方式

正文:
大语言模型的能力提升长期依赖参数和数据规模的扩张,但在复杂任务中,这种方法逐渐显现出局限性。尤其是在多轮搜索与推理场景中,模型失败的原因往往不是推理能力不足,而是无法有效处理错误的传播。现有训练方法仅依据最终答案优化,导致“偶然成功”与“可靠推理”混为一谈,削弱了模型对中途错误的约束。

针对这一问题,MBZUAI、港中文和腾讯混元联合团队提出了一种新方法《Search-R2: Enhancing Search-Integrated Reasoning via Actor-Refiner Collaboration》。该方法将推理生成、轨迹判断和错误定位纳入统一的强化学习框架,使训练信号能回传至错误首次发生的位置,从而抑制错误传播。

实验表明,Search-R2 在普通问答任务和多跳推理任务中均表现优异,尤其在多跳推理任务(如 HotpotQA、2WikiMultiHopQA 和 Bamboogle 数据集)中提升显著,部分数据集准确率相对提升超过 20%。其优势来源于对长链推理中错误传播的有效抑制,而非更强的参数记忆能力。

研究还通过消融实验验证了各模块的作用。结果显示,中途纠错机制本身即可显著提升性能,而加入衡量搜索质量的过程奖励后效果更佳。最终,在推理生成模块与纠错模块联合优化下,模型在所有评测数据集上取得最优结果。

方法设计上,Search-R2 将纠错纳入策略空间,明确分工各模块功能。推理生成模块负责生成轨迹,纠错模块则判断轨迹是否偏离并定位错误位置,随后从错误点重新生成推理。此外,过程奖励信号确保搜索质量成为达成正确答案的必要条件。

这项研究解决了长链推理中的信用分配难题,通过轨迹筛选、错误定位和受控纠错三种机制,将复杂问题拆解为可操作的学习目标。其核心在于承认错误不可避免,并让模型学会与错误共处、定位并修正它们。

论文一作为何博威(MBZUAI 博士后研究员)和 Minda Hu(港中文博士研究生),研究得到了麦吉尔大学、香港城市大学等多方支持。Search-R2 的命名还获得了 Search-R1 作者团队的官方授权。

论文地址:https://arxiv.org/pdf/2602.03647

原文链接
本文链接:https://kx.umi6.com/article/32901.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
我用1分钟开发了个上线应用,有阿里Meoo谁还学编程啊
2026-04-16 11:56:36
三星电子HBM4良率仍低于60%
2026-04-15 10:57:43
国家数据局:到2028年底 拟打造一批数据驱动人工智能创新发展的典型应用场景
2026-04-15 21:25:27
“库存只有一周多一点” 下游需求旺盛电子布企业订单饱满
2026-04-16 15:07:26
短短3个月,高德已拿下具身智能领域15项世界第一
2026-04-16 11:57:46
中科曙光发布国内最大AI4S集群:60000卡国产超智融合算力巅峰
2026-04-15 10:53:21
没得商量!三星官宣:2026年99%电视强行植入AI
2026-04-16 10:53:26
它石智航Pre-A轮融资4.55亿美金破中国具身智能纪录,高瓴红杉美团联合领投
2026-04-16 16:08:00
集成四大顶尖模型!阿里ATH发布AI开发工具Meoo:内部超万人在用
2026-04-15 15:04:20
阿里巴巴开放式世界模型产品Happy Oyster开放体验
2026-04-16 13:02:34
北电数智发布星火·AI云2.0,以AI系统工程重塑产城发展范式 | 酒仙桥论坛
2026-04-15 17:08:52
天猫拟新增《AI软件及应用类商品发布规范》
2026-04-14 17:13:54
中信建投:Anthropic最强模型Mythos推出 重点推荐谷歌链
2026-04-16 07:47:33
24小时热文
更多
扫一扫体验小程序