1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

11月13日,摩尔线程提出的URPO统一奖励与策略优化框架获人工智能顶级会议AAAI 2026收录。该框架融合“指令遵循”与“奖励评判”角色于单一模型,在数据格式统一、自我奖励循环及协同进化机制三方面实现技术突破,简化大模型训练并提升性能。实验显示,基于Qwen2.5-7B模型,URPO在AlpacaEval指令跟随榜单得分从42.24提升至44.84,综合推理能力测试平均分从32.66提升至35.66。其内部评判能力在RewardBench评测中达85.15分,超越专用奖励模型。目前,URPO已在摩尔线程自研计算卡上稳定运行,并适配VERL等主流强化学习框架。

原文链接
本文链接:https://kx.umi6.com/article/28385.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
估值255亿!“中国英伟达”GPU独角兽摩尔线程启动IPO上市辅导
2024-11-13 07:26:24
国产GPU跑满血DeepSeek,已经可以100 tokens/s了!
2025-07-26 18:43:48
摩尔线程支持 DeepSeek 开源周“全家桶”
2025-03-02 10:30:14
抢下120亿,这届芯片老兵要翻身了
2025-07-09 18:08:01
寒武纪、摩尔线程完成对智谱 GLM-4.6 的适配,国产大模型与国产芯片协同进入新阶段
2025-09-30 18:30:45
摩尔线程开源 MT-MegatronLM 和 MT-TransformerEngine 两大 AI 框架
2025-03-17 18:54:18
国产GPU历史性时刻!摩尔线程、沐曦同日获IPO受理
2025-07-01 16:26:02
摩尔线程开源 OpenCV-MUSA:支持绝大部分 cv::cuda 命名空间下数据结构及 API
2024-09-20 18:11:58
摩尔线程及中介机构回复首轮审核问询函
2025-09-05 20:24:47
大模型“精细化”对齐,真实性提升25.8%刷新SOTA!token级精准编辑,无需训练即插即用
2025-09-27 13:41:13
摩尔线程、国家信息中心战略合作!国产GPU空前新机遇
2025-10-23 20:13:57
摩尔线程 MTT S4000 训推一体计算卡通过中国信通院 AI 芯片和大模型适配验证
2025-05-08 10:25:57
摩尔线程及中介机构回复第二轮审核问询函
2025-09-18 15:58:01
24小时热文
更多
扫一扫体验小程序