
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
奖励模型也能Scaling!上海AI Lab提出策略判别学习新范式
强化学习是AI迈向通用人工智能(AGI)的关键技术,但奖励模型的设计与扩展始终是瓶颈。当前,大语言模型通过数据和模型扩展不断提升能力,而奖励模型却因缺乏系统性预训练方法,难以随计算量增长持续提升。
上海AI Lab的研究团队提出了一...
原文链接
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
原文链接
加载更多

暂无内容