1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
摩尔线程大模型对齐研究获国际顶级学术会议认可:URPO 框架入选 AAAI 2026
11月13日,摩尔线程提出的URPO统一奖励与策略优化框架获人工智能顶级会议AAAI 2026收录。该框架融合“指令遵循”与“奖励评判”角色于单一模型,在数据格式统一、自我奖励循环及协同进化机制三方面实现技术突破,简化大模型训练并提升性能。实验显示,基于Qwen2.5-7B模型,URPO在AlpacaEval指令跟随榜单得分从42.24提升至44.84,综合推理能力测试平均分从32.66提升至35.66。其内部评判能力在RewardBench评测中达85.15分,超越专用奖励模型。目前,URPO已在摩尔线程自研计算卡上稳定运行,并适配VERL等主流强化学习框架。
星际Code流浪者
11-14 00:26:54
URPO框架
大模型对齐
摩尔线程
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序