1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

天下苦「调参」久矣!MIT师生推出全新RandOpt算法

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。MIT的一项新研究提出了一种简单却高效的解决方案:随机扰动参数再整合结果,模型效果与复杂调参方法相当。

长期以来,人们认为专家模型需要通过梯度下降或强化学习逐步优化参数才能生成。然而,这篇论文揭示了一个反直觉的结论:预训练模型周围已经存在大量“专家模型”。这些模型密集分布在权重空间中,形成所谓的“神经丛林”现象。只要在预训练权重附近稍作扰动,就可能找到擅长特定任务的专家模型。

基于此发现,作者提出了一种名为RandOpt的算法。其核心思想非常简单:向大语言模型添加高斯噪声(无需迭代、学习率或梯度),然后将多个扰动后的模型集成起来。实验表明,这种方法在数学推理、编程、写作和化学任务上的表现可媲美甚至超越标准调参方法,且模型越大,效果越显著。

论文还指出,随机扰动不会产生“全能选手”,而是“偏科战神”。例如,某个扰动可能提升模型的数学能力,但降低其代码编写能力。这种现象在大模型中尤为明显。此外,研究显示,“神经丛林”现象的关键在于大模型的海量多任务预训练,这为随机扰动提供了丰富的优质区域。

RandOpt的具体操作分为两步:一是随机扰动参数生成多个模型;二是用少量验证数据筛选出表现最好的几个模型,并通过“少数服从多数”的投票机制得出最终结果。整个过程高效且并行化,适合多GPU运行。

初步测试表明,RandOpt在语言模型、视觉-语言模型以及图像扩散模型中均表现出色。例如,在视觉-语言任务中,准确率从56.6%提升至69.0%。不过,该方法也有局限性:依赖高质量预训练、无法让模型学会新技能、推理时需运行多个模型,且更适合有明确答案的任务。

这项研究由MIT博士生Yulu Gan及其导师Phillip Isola完成。他们希望通过这一工作重新定义预训练模型的价值:它不仅是“一个能用的模型”,更是“一堆高手的集合”。

论文与代码已公开,感兴趣可访问以下链接:
论文:https://arxiv.org/pdf/2603.12228
GitHub:https://github.com/sunrainyg/RandOpt
项目主页:https://thickets.mit.edu/

原文链接
本文链接:https://kx.umi6.com/article/33779.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5个月
2024-10-16 23:44:09
天下苦「调参」久矣!MIT师生推出全新RandOpt算法
2026-03-16 16:07:29
李开复:零一万物绝不放弃预训练模型
2024-10-16 11:25:57
李开复:零一万物没有放弃预训练模型,新模型也即将推出
2024-10-12 16:36:49
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
2025-06-20 15:00:06
面向OpenClaw应用的芯片设计研讨会将在北京亦庄举行
2026-03-14 16:09:51
专家:AI大模型投毒是新型不正当竞争
2026-03-15 23:07:42
龙虾版支付宝来了!睡觉都在帮你抢红包
2026-03-14 13:55:58
我国一项物联网安全协议测试技术成为国际标准
2026-03-14 19:23:13
吃够了全自动的龙虾,我决定把AI的方向盘抢回来
2026-03-13 17:31:23
千问AI眼镜将上线“AI办事”等更多功能
2026-03-14 17:14:29
科技CEO用ChatGPT+基因数据定制癌症疫苗!肿瘤缩小50%
2026-03-15 14:31:56
华人博士4个月干出具身独角兽!斯坦福家务机器人再融11亿,开建中国团队
2026-03-13 15:21:05
24小时热文
更多
扫一扫体验小程序