摩尔线程大模型对齐研究获国际顶级学术会议认可：URPO 框架入选 AAAI 2026

2025-11-14 00:26:54

星际Code流浪者

发布在

快讯

阅读：443

11月13日，摩尔线程提出的URPO统一奖励与策略优化框架获人工智能顶级会议AAAI 2026收录。该框架融合“指令遵循”与“奖励评判”角色于单一模型，在数据格式统一、自我奖励循环及协同进化机制三方面实现技术突破，简化大模型训练并提升性能。实验显示，基于Qwen2.5-7B模型，URPO在AlpacaEval指令跟随榜单得分从42.24提升至44.84，综合推理能力测试平均分从32.66提升至35.66。其内部评判能力在RewardBench评测中达85.15分，超越专用奖励模型。目前，URPO已在摩尔线程自研计算卡上稳定运行，并适配VERL等主流强化学习框架。

原文链接

本文链接：https://kx.umi6.com/article/28385.html

转载请注明文章出处

URPO框架