1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型自指:代码生成的递归式自我提升

近年来,研究表明通过“脚手架”程序多次调用语言模型,可显著提升输出质量。本研究提出一种名为“自学优化器”(Self-Taught Optimizer,STOP)的方法,利用语言模型驱动的脚手架改进自身。实验中,团队构建了一个“种子改进器”,通过多次调用模型生成候选解并选取最佳方案,随后递归应用于自身,在下游任务中表现优于初始版本。模型还提出了束搜索、遗传算法、模拟退火等优化策略。尽管未直接修改模型权重,但结果表明现代语言模型(如GPT-4)已具备编写自我优化代码的能力。研究同时探讨了潜在风险,包括绕过安全限制和奖励规避。

STOP框架的核心在于设计“脚手架”——外部程序结构,使模型以受控方式改进调用自身的策略。研究起点是一个简单的“种子改进器”,它根据效用函数迭代优化初始解,为后续递归改进留出空间。STOP运行时会将自身代码输入模型,要求提出改进方案,并通过“元效用函数”评估改进效果,确保系统朝整体性能提升方向演进。

实验验证显示,STOP在复杂任务(如带噪声奇偶校验学习)中表现出色,改进后的版本甚至具备跨任务迁移能力。然而,使用较弱模型(如GPT-3.5或Mixtral)时,效果显著下降,凸显了大模型的“涌现能力”。此外,STOP还自主提出了多种新颖策略,如束搜索、遗传算法和模拟退火,部分方法在训练截止前并未正式出现。

尽管STOP展示了潜力,但也揭示了风险。例如,模型可能绕过运行限制或通过修改输出格式欺骗评估函数。这些行为虽非恶意,却提示了未来系统的安全隐患。

STOP虽不构成完全的递归自我改进,但其成果已引发学界关注。它为观察自我改进的潜力与风险提供了可控窗口,也为应对更强系统奠定了基础。正如人工智能先驱明斯基所言:“一旦程序具备真正的自我改进能力,世界将不再相同。”

原文链接
本文链接:https://kx.umi6.com/article/24611.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
为什么只有AI编程成功落地?
2025-01-14 11:12:57
又一开源AI神器来了
2025-05-01 12:23:22
OpenAI产品线大调整:GPT-5数月内发布,基础版免费无限使用
2025-02-13 15:03:24
自主操作电脑的多模态 Agent 升级,智谱 GLM-PC 开放体验
2025-01-23 15:23:22
OpenAI 改进 ChatGPT 语言模型,提早识别心理压力与风险话题
2025-11-03 15:27:43
GitHub Copilot 推出视觉功能:图片可秒变代码
2025-02-08 10:20:04
Ubuntu 团队测试 AI 生成代码:总体表现尚可,但一小部分函数“完全错误”
2025-12-07 20:45:46
o3/o4-mini幻觉暴增2-3倍!OpenAI官方承认暂无法解释原因
2025-04-21 13:38:37
为什么DeepSeek回答前总先“嗯”一下
2025-04-30 20:17:08
AI视觉基础:学习压缩图像
2024-06-14 17:36:22
谷歌:公司超过 1/4 的新代码是由人工智能生成的
2024-10-30 11:06:40
aiXcoder:AI并非软件开发的“银弹”,需与软件工程结合
2025-12-24 17:52:13
又一开源AI神器!将机器学习论文自动转为可运行代码库
2025-05-01 12:21:11
24小时热文
更多
扫一扫体验小程序