综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
天下苦「调参」久矣!MIT师生推出全新RandOpt算法
只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。MIT的一项新研究提出了一种简单却高效的解决方案:随机扰动参数再整合结果,模型效果与复杂调参方法相当。
长期以来,人们认为专家模型需要通过梯度下降或强化学习逐步优化参...
原文链接
加载更多
暂无内容