1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

大模型自指:代码生成的递归式自我提升

近年来,研究表明通过“脚手架”程序多次调用语言模型,可显著提升输出质量。本研究提出一种名为“自学优化器”(Self-Taught Optimizer,STOP)的方法,利用语言模型驱动的脚手架改进自身。实验中,团队构建了一个“种子改进器”,通过多次调用模型生成候选解并选取最佳方案,随后递归应用于自身,在下游任务中表现优于初始版本。模型还提出了束搜索、遗传算法、模拟退火等优化策略。尽管未直接修改模型权重,但结果表明现代语言模型(如GPT-4)已具备编写自我优化代码的能力。研究同时探讨了潜在风险,包括绕过安全限制和奖励规避。

STOP框架的核心在于设计“脚手架”——外部程序结构,使模型以受控方式改进调用自身的策略。研究起点是一个简单的“种子改进器”,它根据效用函数迭代优化初始解,为后续递归改进留出空间。STOP运行时会将自身代码输入模型,要求提出改进方案,并通过“元效用函数”评估改进效果,确保系统朝整体性能提升方向演进。

实验验证显示,STOP在复杂任务(如带噪声奇偶校验学习)中表现出色,改进后的版本甚至具备跨任务迁移能力。然而,使用较弱模型(如GPT-3.5或Mixtral)时,效果显著下降,凸显了大模型的“涌现能力”。此外,STOP还自主提出了多种新颖策略,如束搜索、遗传算法和模拟退火,部分方法在训练截止前并未正式出现。

尽管STOP展示了潜力,但也揭示了风险。例如,模型可能绕过运行限制或通过修改输出格式欺骗评估函数。这些行为虽非恶意,却提示了未来系统的安全隐患。

STOP虽不构成完全的递归自我改进,但其成果已引发学界关注。它为观察自我改进的潜力与风险提供了可控窗口,也为应对更强系统奠定了基础。正如人工智能先驱明斯基所言:“一旦程序具备真正的自我改进能力,世界将不再相同。”

原文链接
本文链接:https://kx.umi6.com/article/24611.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
今年TRAE写的代码:100000000000行!超50%程序员每天在按Tab键
2025-12-29 14:23:35
破解AI对不同上下⽂位置的敏感度不⼀致,新框架使出“解铃还须系铃人”
2025-10-26 13:12:39
「北京版幻方」冷不丁开源SOTA代码大模型!一张3090就能跑,40B参数掀翻Opus-4.5和GPT-5.2
2026-01-02 12:12:45
阿里发布Qoder 1.0,可全面接管代码生成、验证和交付流程
2026-05-15 15:51:47
ChatGPT 的编码能力到底有多强?
2024-07-23 14:14:29
OpenAI 揭秘如何用 28 天开发安卓版 Sora:85% 代码由 Codex 生成,仅由 4 名工程师协作
2025-12-13 09:40:44
OpenAI 最强智能体编程模型 GPT-5.2-Codex 登场:AI 写代码新巅峰,优化 Win11 原生环境
2025-12-19 07:32:42
又一开源AI神器!将机器学习论文自动转为可运行代码库
2025-05-01 12:21:11
通义千问系列最强大的语言模型:Qwen3-Max-Preview 上线
2025-09-06 00:26:52
Ubuntu 团队测试 AI 生成代码:总体表现尚可,但一小部分函数“完全错误”
2025-12-07 20:45:46
新一代旗舰级人工智能模型!曝DeepSeekV4春节前后发布
2026-01-10 13:14:49
Claude团队新研究:为什么有的模型假装对齐有的不会
2025-07-09 18:06:47
aiXcoder:AI并非软件开发的“银弹”,需与软件工程结合
2025-12-24 17:52:13
24小时热文
更多
扫一扫体验小程序