天下苦「调参」久矣!MIT师生推出全新RandOpt算法
只需向模型添加高斯噪声,性能就能比肩甚至超越GRPO/PPO等经典调参算法。MIT的一项新研究提出了一种简单却高效的解决方案:随机扰动参数再整合结果,模型效果与复杂调参方法相当。
长期以来,人们认为专家模型需要通过梯度下降或强化学习逐步优化参数才能生成。然而,这篇论文揭示了一个反直觉的结论:预训练模型周围已经存在大量“专家模型”。这些模型密集分布在权重空间中,形成所谓的“神经丛林”现象。只要在预训练权重附近稍作扰动,就可能找到擅长特定任务的专家模型。
基于此发现,作者提出了一种名为RandOpt的算法。其核心思想非常简单:向大语言模型添加高斯噪声(无需迭代、学习率或梯度),然后将多个扰动后的模型集成起来。实验表明,这种方法在数学推理、编程、写作和化学任务上的表现可媲美甚至超越标准调参方法,且模型越大,效果越显著。
论文还指出,随机扰动不会产生“全能选手”,而是“偏科战神”。例如,某个扰动可能提升模型的数学能力,但降低其代码编写能力。这种现象在大模型中尤为明显。此外,研究显示,“神经丛林”现象的关键在于大模型的海量多任务预训练,这为随机扰动提供了丰富的优质区域。
RandOpt的具体操作分为两步:一是随机扰动参数生成多个模型;二是用少量验证数据筛选出表现最好的几个模型,并通过“少数服从多数”的投票机制得出最终结果。整个过程高效且并行化,适合多GPU运行。
初步测试表明,RandOpt在语言模型、视觉-语言模型以及图像扩散模型中均表现出色。例如,在视觉-语言任务中,准确率从56.6%提升至69.0%。不过,该方法也有局限性:依赖高质量预训练、无法让模型学会新技能、推理时需运行多个模型,且更适合有明确答案的任务。
这项研究由MIT博士生Yulu Gan及其导师Phillip Isola完成。他们希望通过这一工作重新定义预训练模型的价值:它不仅是“一个能用的模型”,更是“一堆高手的集合”。
论文与代码已公开,感兴趣可访问以下链接:
论文:https://arxiv.org/pdf/2603.12228
GitHub:https://github.com/sunrainyg/RandOpt
项目主页:https://thickets.mit.edu/
-
2026-03-16 19:24:18 -
2026-03-16 19:23:12 -
2026-03-16 18:22:48