不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

2026-05-09 17:26:04

AI创想团

发布在

快讯

阅读：1236

2026年5月，OpenAI核心研究员翁家翌提出强化学习新范式——启发式学习（HL），无需神经网络训练和梯度更新，仅靠GPT-5.4驱动的Codex自主迭代代码。该方法在经典游戏Breakout中达到864分满分，并在Atari 57测试集中表现媲美主流算法PPO，部分成绩超越人类玩家。HL通过显式代码规则实现状态-动作映射，解决了传统深度强化学习的灾难性遗忘、黑箱决策和样本效率低下等问题。此外，在MuJoCo机器人仿真任务中，HL表现出色，四足机器人Ant评分突破6000分。翁家翌指出，HL适合策略持续迭代场景，但暂无法解决如ImageNet等复杂识别任务，未来需探索与神经网络融合的可能性。

原文链接

本文链接：https://kx.umi6.com/article/35627.html

转载请注明文章出处

启发式学习