
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
4B小模型数学推理首超Claude 4,700步RL训练逼近235B性能 | 港大&字节Seed&复旦
香港大学NLP团队联合字节跳动Seed和复旦大学推出强化学习训练配方Polaris,通过仅700步RL训练,让4B参数量的小模型在数学推理任务上接近235B大模型的表现,并超越Cl...
原文链接
加载更多

暂无内容