最新 AGI 暴论：强化学习的「GPT-3 时刻」实现，还需要 1 万年？

2025-07-14 17:29:16

心智奇点

发布在

快讯

阅读：1140

标题：AGI 暴论：强化学习的「GPT-3 时刻」还要等多久？

正文：
近日，AI 初创公司 Mechanize 的三位创始人提出一个大胆预测：强化学习（RL）或许将迎来它的“GPT-3 时刻”，但需要相当于数千至上万年的模型训练时间。他们认为，当前 RL 模型存在泛化能力差、难以适应新任务等问题，与 GPT-3 出现前的语言模型类似。为解决这一问题，他们提出了“复制训练”（Replication Training）的新范式。

复制训练的核心是让模型在虚拟环境中模拟真实软件的操作过程，例如使用浏览器、编写代码或处理命令行任务。这种方式任务目标明确、评分机制清晰，还能自动生成大量训练数据，非常适合系统性训练 RL 模型。尽管它在开放性和测试设计上仍有挑战，但被认为是推动 RL 走向通用智能的重要路径。

GPT-3 的成功表明，仅靠规模化训练就能催生出强大的 few-shot 能力。然而，当前 RL 的训练方式仍停留在特定环境微调阶段，泛化能力极弱。要实现 RL 的“GPT-3 时刻”，需要在成千上万种多样化环境中进行大规模训练，以培养出具备任务无关泛化能力的智能体。

但实现这一目标的前提是构建规模远超当前水平的训练环境。以 DeepSeek-R1 为例，其训练数据约等于 6 年的人类劳动，而 GPT-3 所需语料则相当于几十万年。若将 RL 训练提升到类似规模，可能需要约 1 万年的模型任务时间。经济上，这种扩展是可行的，因为算力成本不会随规模线性增长。真正的难点在于如何设计足够多样且可自动评估的训练环境。

复制训练可能是解决方案之一。类似于语言模型利用互联网资源构建训练数据，复制训练通过复现现有软件产品或功能生成复杂任务。初期任务可以是简单的命令行工具，随着模型能力提升，逐步扩展到网页应用或大型游戏。每个任务都提供详尽规范和参考实现，评估标准直接且客观。

这种方法不仅能补足 AI 系统在工程能力上的短板，如理解复杂文档、严格遵循规范、修复错误等，还为通用型智能体的训练奠定了基础。然而，复制训练并非完美，例如全面测试的设计仍需大量人工投入。尽管如此，它仍被视为通向 RL“GPT-3 时刻”的关键桥梁。

虽然复制训练有望催生出能独立完成复杂项目的 AI 系统，但这类系统可能仍缺乏人类的开放性与跨领域能力。不过，作为迈向全自动劳动的重要一步，其潜力与前景值得期待。

原文链接

本文链接：https://kx.umi6.com/article/21710.html

转载请注明文章出处

GPT-3时刻