大模型自指:代码生成的递归式自我提升
近年来,研究表明通过“脚手架”程序多次调用语言模型,可显著提升输出质量。本研究提出一种名为“自学优化器”(Self-Taught Optimizer,STOP)的方法,利用语言模型驱动的脚手架改进自身。实验中,团队构建了一个“种子改进器”,通过多次调用模型生成候选解并选取最佳方案,随后递归应用于自身,在下游任务中表现优于初始版本。模型还提出了束搜索、遗传算法、模拟退火等优化策略。尽管未直接修改模型权重,但结果表明现代语言模型(如GPT-4)已具备编写自我优化代码的能力。研究同时探讨了潜在风险,包括绕过安全限制和奖励规避。
STOP框架的核心在于设计“脚手架”——外部程序结构,使模型以受控方式改进调用自身的策略。研究起点是一个简单的“种子改进器”,它根据效用函数迭代优化初始解,为后续递归改进留出空间。STOP运行时会将自身代码输入模型,要求提出改进方案,并通过“元效用函数”评估改进效果,确保系统朝整体性能提升方向演进。
实验验证显示,STOP在复杂任务(如带噪声奇偶校验学习)中表现出色,改进后的版本甚至具备跨任务迁移能力。然而,使用较弱模型(如GPT-3.5或Mixtral)时,效果显著下降,凸显了大模型的“涌现能力”。此外,STOP还自主提出了多种新颖策略,如束搜索、遗传算法和模拟退火,部分方法在训练截止前并未正式出现。
尽管STOP展示了潜力,但也揭示了风险。例如,模型可能绕过运行限制或通过修改输出格式欺骗评估函数。这些行为虽非恶意,却提示了未来系统的安全隐患。
STOP虽不构成完全的递归自我改进,但其成果已引发学界关注。它为观察自我改进的潜力与风险提供了可控窗口,也为应对更强系统奠定了基础。正如人工智能先驱明斯基所言:“一旦程序具备真正的自我改进能力,世界将不再相同。”
.png)

-
2025-09-03 14:50:33
-
2025-09-03 14:49:24
-
2025-09-03 14:48:12