11月13日,摩尔线程提出的URPO统一奖励与策略优化框架获人工智能顶级会议AAAI 2026收录。该框架融合“指令遵循”与“奖励评判”角色于单一模型,在数据格式统一、自我奖励循环及协同进化机制三方面实现技术突破,简化大模型训练并提升性能。实验显示,基于Qwen2.5-7B模型,URPO在AlpacaEval指令跟随榜单得分从42.24提升至44.84,综合推理能力测试平均分从32.66提升至35.66。其内部评判能力在RewardBench评测中达85.15分,超越专用奖励模型。目前,URPO已在摩尔线程自研计算卡上稳定运行,并适配VERL等主流强化学习框架。
原文链接
本文链接:https://kx.umi6.com/article/28385.html
转载请注明文章出处
相关推荐
换一换
国产GPU第一股诞生!摩尔线程正式登陆科创板
2025-12-05 11:26:22
摩尔线程科创板IPO上会在即 联美控股收盘三连板 十余家上市公司互动易回复参股投资
2025-09-25 15:07:35
国产GPU历史性时刻!摩尔线程、沐曦同日获IPO受理
2025-07-01 16:26:02
国产GPU跑满血DeepSeek,已经可以100 tokens/s了!
2025-07-26 18:43:48
摩尔线程新方法优化AI交互:显存节省最多82%
2025-03-04 19:31:51
摩尔线程发布Torch-MUSA v2.7.0 持续增强AI模型训练与推理支持
2025-11-28 11:28:30
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026
2025-11-14 00:26:54
摩尔线程:与师者 AI 完成 70 亿参数教育大模型训练测试
2024-06-14 14:15:12
摩尔线程联合智源完成RoboBrain 2.5的全流程训练
2026-01-13 19:52:12
投资界24h | 徐新买了字节老股;瑞幸揭开IDG另一张版图;年底最大IPO:摩尔线程开启打新
2025-11-21 09:08:18
抢下120亿,这届芯片老兵要翻身了
2025-07-09 18:08:01
摩尔线程科创板IPO将于9月26日上会
2025-09-19 19:20:38
653 文章
424520 浏览
24小时热文
更多
-
2026-01-23 12:56:24 -
2026-01-23 11:53:08 -
2026-01-23 11:52:03