标题:AGI 暴论:强化学习的「GPT-3 时刻」还要等多久?
正文:
近日,AI 初创公司 Mechanize 的三位创始人提出一个大胆预测:强化学习(RL)或许将迎来它的“GPT-3 时刻”,但需要相当于数千至上万年的模型训练时间。他们认为,当前 RL 模型存在泛化能力差、难以适应新任务等问题,与 GPT-3 出现前的语言模型类似。为解决这一问题,他们提出了“复制训练”(Replication Training)的新范式。
复制训练的核心是让模型在虚拟环境中模拟真实软件的操作过程,例如使用浏览器、编写代码或处理命令行任务。这种方式任务目标明确、评分机制清晰,还能自动生成大量训练数据,非常适合系统性训练 RL 模型。尽管它在开放性和测试设计上仍有挑战,但被认为是推动 RL 走向通用智能的重要路径。
GPT-3 的成功表明,仅靠规模化训练就能催生出强大的 few-shot 能力。然而,当前 RL 的训练方式仍停留在特定环境微调阶段,泛化能力极弱。要实现 RL 的“GPT-3 时刻”,需要在成千上万种多样化环境中进行大规模训练,以培养出具备任务无关泛化能力的智能体。
但实现这一目标的前提是构建规模远超当前水平的训练环境。以 DeepSeek-R1 为例,其训练数据约等于 6 年的人类劳动,而 GPT-3 所需语料则相当于几十万年。若将 RL 训练提升到类似规模,可能需要约 1 万年的模型任务时间。经济上,这种扩展是可行的,因为算力成本不会随规模线性增长。真正的难点在于如何设计足够多样且可自动评估的训练环境。
复制训练可能是解决方案之一。类似于语言模型利用互联网资源构建训练数据,复制训练通过复现现有软件产品或功能生成复杂任务。初期任务可以是简单的命令行工具,随着模型能力提升,逐步扩展到网页应用或大型游戏。每个任务都提供详尽规范和参考实现,评估标准直接且客观。
这种方法不仅能补足 AI 系统在工程能力上的短板,如理解复杂文档、严格遵循规范、修复错误等,还为通用型智能体的训练奠定了基础。然而,复制训练并非完美,例如全面测试的设计仍需大量人工投入。尽管如此,它仍被视为通向 RL“GPT-3 时刻”的关键桥梁。
虽然复制训练有望催生出能独立完成复杂项目的 AI 系统,但这类系统可能仍缺乏人类的开放性与跨领域能力。不过,作为迈向全自动劳动的重要一步,其潜力与前景值得期待。
.png)

-
2025-07-19 07:49:30
-
2025-07-18 23:46:25
-
2025-07-18 22:47:06