1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

天下苦「调参」久矣!MIT师生推出全新RandOpt算法

只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。MIT的一项新研究提出了一种简单却高效的解决方案:随机扰动参数再整合结果,模型效果与复杂调参方法相当。

长期以来,人们认为专家模型需要通过梯度下降或强化学习逐步优化参数才能生成。然而,这篇论文揭示了一个反直觉的结论:预训练模型周围已经存在大量“专家模型”。这些模型密集分布在权重空间中,形成所谓的“神经丛林”现象。只要在预训练权重附近稍作扰动,就可能找到擅长特定任务的专家模型。

基于此发现,作者提出了一种名为RandOpt的算法。其核心思想非常简单:向大语言模型添加高斯噪声(无需迭代、学习率或梯度),然后将多个扰动后的模型集成起来。实验表明,这种方法在数学推理、编程、写作和化学任务上的表现可媲美甚至超越标准调参方法,且模型越大,效果越显著。

论文还指出,随机扰动不会产生“全能选手”,而是“偏科战神”。例如,某个扰动可能提升模型的数学能力,但降低其代码编写能力。这种现象在大模型中尤为明显。此外,研究显示,“神经丛林”现象的关键在于大模型的海量多任务预训练,这为随机扰动提供了丰富的优质区域。

RandOpt的具体操作分为两步:一是随机扰动参数生成多个模型;二是用少量验证数据筛选出表现最好的几个模型,并通过“少数服从多数”的投票机制得出最终结果。整个过程高效且并行化,适合多GPU运行。

初步测试表明,RandOpt在语言模型、视觉-语言模型以及图像扩散模型中均表现出色。例如,在视觉-语言任务中,准确率从56.6%提升至69.0%。不过,该方法也有局限性:依赖高质量预训练、无法让模型学会新技能、推理时需运行多个模型,且更适合有明确答案的任务。

这项研究由MIT博士生Yulu Gan及其导师Phillip Isola完成。他们希望通过这一工作重新定义预训练模型的价值:它不仅是“一个能用的模型”,更是“一堆高手的集合”。

论文与代码已公开,感兴趣可访问以下链接:
论文:https://arxiv.org/pdf/2603.12228
GitHub:https://github.com/sunrainyg/RandOpt
项目主页:https://thickets.mit.edu/

原文链接
本文链接:https://kx.umi6.com/article/33779.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
李飞飞团队提出架构设计新思路!无需从头训练,直接“嫁接”预训练模型关键组件
2025-06-20 15:00:06
李开复:零一万物没有放弃预训练模型,新模型也即将推出
2024-10-12 16:36:49
李开复:零一万物绝不放弃预训练模型
2024-10-16 11:25:57
李开复:最新预训练模型Yi-Lightning超越GPT-4o,中美顶尖模型只差5个月
2024-10-16 23:44:09
微信AI自动模式开启内测!用户一句话 可直接操作小程序页面
2026-06-08 17:42:03
太讽刺了 号称最注重AI安全的Anthropic曝出用户隐私泄露问题
2026-06-07 14:42:06
刚刚,李飞飞亲自下场定义世界模型
2026-06-04 09:56:31
全方位AI超进化!华硕 COMPUTEX 2026 开启企业至边缘 AI 转型新篇章
2026-06-05 12:56:42
5分钟AI长视频不翻车!国产开源框架杀到全球第一梯队
2026-06-07 09:22:47
WPS笔记正式发布:AI贯穿记录、整理与复用全过程
2026-06-05 18:08:52
港中深王方鑫团队:3D 重建的「玻璃杯难题」,终于被摆上台面丨CVPR 2026
2026-06-04 12:05:02
互联网历史上首次!机器人流量首度超越人类:占比57.5%
2026-06-07 14:36:36
从超级个体到超级团队,腾讯云发布WorkBuddy企业版
2026-06-05 17:06:00
24小时热文
更多
扫一扫体验小程序