1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型自指:代码生成的递归式自我提升

近年来,研究表明通过“脚手架”程序多次调用语言模型,可显著提升输出质量。本研究提出一种名为“自学优化器”(Self-Taught Optimizer,STOP)的方法,利用语言模型驱动的脚手架改进自身。实验中,团队构建了一个“种子改进器”,通过多次调用模型生成候选解并选取最佳方案,随后递归应用于自身,在下游任务中表现优于初始版本。模型还提出了束搜索、遗传算法、模拟退火等优化策略。尽管未直接修改模型权重,但结果表明现代语言模型(如GPT-4)已具备编写自我优化代码的能力。研究同时探讨了潜在风险,包括绕过安全限制和奖励规避。

STOP框架的核心在于设计“脚手架”——外部程序结构,使模型以受控方式改进调用自身的策略。研究起点是一个简单的“种子改进器”,它根据效用函数迭代优化初始解,为后续递归改进留出空间。STOP运行时会将自身代码输入模型,要求提出改进方案,并通过“元效用函数”评估改进效果,确保系统朝整体性能提升方向演进。

实验验证显示,STOP在复杂任务(如带噪声奇偶校验学习)中表现出色,改进后的版本甚至具备跨任务迁移能力。然而,使用较弱模型(如GPT-3.5或Mixtral)时,效果显著下降,凸显了大模型的“涌现能力”。此外,STOP还自主提出了多种新颖策略,如束搜索、遗传算法和模拟退火,部分方法在训练截止前并未正式出现。

尽管STOP展示了潜力,但也揭示了风险。例如,模型可能绕过运行限制或通过修改输出格式欺骗评估函数。这些行为虽非恶意,却提示了未来系统的安全隐患。

STOP虽不构成完全的递归自我改进,但其成果已引发学界关注。它为观察自我改进的潜力与风险提供了可控窗口,也为应对更强系统奠定了基础。正如人工智能先驱明斯基所言:“一旦程序具备真正的自我改进能力,世界将不再相同。”

原文链接
本文链接:https://kx.umi6.com/article/24611.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
LeCun最新万字演讲:纯语言模型到不了人类水平,我们基本已放弃
2024-10-18 09:36:11
OpenAI重金投资的代码工具,“叛变”了
2024-08-16 07:11:31
将偏好学习引入模型训练,北大李戈团队新框架,可显著提升代码准确性与执行效率
2024-11-28 00:08:18
不是视频模型“学习”慢,而是LLM走捷径|18万引大牛Sergey Levine
2025-06-10 17:50:38
豆包开源视频生成模型 VideoWorld:首创免语言模型依赖认知世界
2025-02-10 15:13:00
为什么只有AI编程成功落地?
2025-01-14 11:12:57
OpenAI 官宣将发布自 GPT-2 以来的首个开放权重语言模型,并具有推理功能
2025-04-01 08:14:11
未来的科技历史,将如何发展?
2025-03-07 10:03:26
Claude团队新研究:为什么有的模型假装对齐有的不会
2025-07-09 18:06:47
谷歌:公司超过 1/4 的新代码是由人工智能生成的
2024-10-30 11:06:40
ChatGPT 的编码能力到底有多强?
2024-07-23 14:14:29
又一开源AI神器来了
2025-05-01 12:23:22
为什么DeepSeek回答前总先“嗯”一下
2025-04-30 20:17:08
24小时热文
更多
扫一扫体验小程序