启发式学习 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

不更新参数就能强化学习！OpenAI翁家翌提出新范式：决策只需AI手搓一个.py 文件

2026年5月，OpenAI核心研究员翁家翌提出强化学习新范式——启发式学习（HL），无需神经网络训练和梯度更新，仅靠GPT-5.4驱动的Codex自主迭代代码。该方法在经典游戏Breakout中达到864分满分，并在Atari 57测试集中表现媲美主流算法PPO，部分成绩超越人类玩家。HL通过显式代码规则实现状态-动作映射，解决了传统深度强化学习的灾难性遗忘、黑箱决策和样本效率低下等问题。此外，在MuJoCo机器人仿真任务中，HL表现出色，四足机器人Ant评分突破6000分。翁家翌指出，HL适合策略持续迭代场景，但暂无法解决如ImageNet等复杂识别任务，未来需探索与神经网络融合的可能性。

原文链接