11月13日,摩尔线程提出的URPO统一奖励与策略优化框架获人工智能顶级会议AAAI 2026收录。该框架融合“指令遵循”与“奖励评判”角色于单一模型,在数据格式统一、自我奖励循环及协同进化机制三方面实现技术突破,简化大模型训练并提升性能。实验显示,基于Qwen2.5-7B模型,URPO在AlpacaEval指令跟随榜单得分从42.24提升至44.84,综合推理能力测试平均分从32.66提升至35.66。其内部评判能力在RewardBench评测中达85.15分,超越专用奖励模型。目前,URPO已在摩尔线程自研计算卡上稳定运行,并适配VERL等主流强化学习框架。
原文链接
本文链接:https://kx.umi6.com/article/28385.html
转载请注明文章出处
相关推荐
换一换
摩尔线程回应“闲置募集资金现金管理”:不影响募投项目实施 实际现金管理金额将明显小于上限
2025-12-13 10:44:56
摩尔线程率先支持腾讯混元-A13B 模型,完成全功能 GPU 深度适配
2025-06-29 18:32:47
摩尔线程支持 DeepSeek 开源周“全家桶”
2025-03-02 10:30:14
摩尔线程算法一鸣惊人,图形学顶会夺银!已开源
2025-12-17 17:54:20
国产GPU第一股诞生!摩尔线程正式登陆科创板
2025-12-05 11:26:22
摩尔线程新方法优化AI交互:显存节省最多82%
2025-03-04 19:31:51
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
2025-09-27 13:41:13
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
摩尔线程完成对Qwen3.5模型全面适配
2026-02-17 22:56:07
摩尔线程新一代GPU架构10天后发布
2025-12-09 16:46:46
摩尔线程还没上市,“概念股”已经抢飞了
2025-09-23 19:21:44
寒武纪、摩尔线程完成对智谱 GLM-4.6 的适配,国产大模型与国产芯片协同进入新阶段
2025-09-30 18:30:45
摩尔线程发布Torch-MUSA v2.7.0 持续增强AI模型训练与推理支持
2025-11-28 11:28:30
688 文章
486166 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18