1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:AGI 暴论:强化学习的「GPT-3 时刻」还要等多久?

正文:
近日,AI 初创公司 Mechanize 的三位创始人提出一个大胆预测:强化学习(RL)或许将迎来它的“GPT-3 时刻”,但需要相当于数千至上万年的模型训练时间。他们认为,当前 RL 模型存在泛化能力差、难以适应新任务等问题,与 GPT-3 出现前的语言模型类似。为解决这一问题,他们提出了“复制训练”(Replication Training)的新范式。

复制训练的核心是让模型在虚拟环境中模拟真实软件的操作过程,例如使用浏览器、编写代码或处理命令行任务。这种方式任务目标明确、评分机制清晰,还能自动生成大量训练数据,非常适合系统性训练 RL 模型。尽管它在开放性和测试设计上仍有挑战,但被认为是推动 RL 走向通用智能的重要路径。

GPT-3 的成功表明,仅靠规模化训练就能催生出强大的 few-shot 能力。然而,当前 RL 的训练方式仍停留在特定环境微调阶段,泛化能力极弱。要实现 RL 的“GPT-3 时刻”,需要在成千上万种多样化环境中进行大规模训练,以培养出具备任务无关泛化能力的智能体。

但实现这一目标的前提是构建规模远超当前水平的训练环境。以 DeepSeek-R1 为例,其训练数据约等于 6 年的人类劳动,而 GPT-3 所需语料则相当于几十万年。若将 RL 训练提升到类似规模,可能需要约 1 万年的模型任务时间。经济上,这种扩展是可行的,因为算力成本不会随规模线性增长。真正的难点在于如何设计足够多样且可自动评估的训练环境。

复制训练可能是解决方案之一。类似于语言模型利用互联网资源构建训练数据,复制训练通过复现现有软件产品或功能生成复杂任务。初期任务可以是简单的命令行工具,随着模型能力提升,逐步扩展到网页应用或大型游戏。每个任务都提供详尽规范和参考实现,评估标准直接且客观。

这种方法不仅能补足 AI 系统在工程能力上的短板,如理解复杂文档、严格遵循规范、修复错误等,还为通用型智能体的训练奠定了基础。然而,复制训练并非完美,例如全面测试的设计仍需大量人工投入。尽管如此,它仍被视为通向 RL“GPT-3 时刻”的关键桥梁。

虽然复制训练有望催生出能独立完成复杂项目的 AI 系统,但这类系统可能仍缺乏人类的开放性与跨领域能力。不过,作为迈向全自动劳动的重要一步,其潜力与前景值得期待。

原文链接
本文链接:https://kx.umi6.com/article/21710.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
2024医疗人工智能:生成式AI爆发,医疗AI走到新的十字路口
2024-10-18 15:49:32
AI渐渐取代了很多人工的工作,我们要如何与AI共处?
2024-05-07 17:08:52
AI视频边生成边播放!首帧延迟仅1.3秒,生成速度9.4帧/秒|Adobe&MIT新研究
2024-12-10 15:56:19
24小时热文
更多
扫一扫体验小程序