2026年5月,OpenAI核心研究员翁家翌提出强化学习新范式——启发式学习(HL),无需神经网络训练和梯度更新,仅靠GPT-5.4驱动的Codex自主迭代代码。该方法在经典游戏Breakout中达到864分满分,并在Atari 57测试集中表现媲美主流算法PPO,部分成绩超越人类玩家。HL通过显式代码规则实现状态-动作映射,解决了传统深度强化学习的灾难性遗忘、黑箱决策和样本效率低下等问题。此外,在MuJoCo机器人仿真任务中,HL表现出色,四足机器人Ant评分突破6000分。翁家翌指出,HL适合策略持续迭代场景,但暂无法解决如ImageNet等复杂识别任务,未来需探索与神经网络融合的可能性。
原文链接
本文链接:https://kx.umi6.com/article/35627.html
转载请注明文章出处
相关推荐
换一换
蚂蚁集团开源 Awex 框架,秒级完成 TB 级参数交换
2025-11-20 10:17:17
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
马斯克亲自点名Karpathy迎战Grok 5!别神话LLM,AGI还要等十年
2025-10-20 15:08:42
字节&MAP重塑大模型推理算法优化重点,强化学习重在高效探索助力LLM提升上限
2025-08-11 10:59:04
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑
2026-06-02 12:26:59
性能超OpenAI、Gemini!月之暗面发布首个自主强化学习Agent
2025-06-23 09:22:20
无需外部数据!AI自问自答实现推理能力进化
2025-08-08 16:13:47
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
上交博士最新思考:仅用两个问题讲清强化学习
2025-11-10 18:29:12
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
OpenAI总裁透露GPT-5改了推理范式,AGI实现要靠现实反馈
2025-08-18 17:48:45
俄航天集团:俄储蓄银行的GigaChat神经网络助手或将于今秋引入国际空间站
2025-06-04 06:11:50
奖励模型也能Scaling!上海AI Lab突破强化学习短板,提出策略判别学习新范式
2025-07-11 11:34:40
757 文章
723301 浏览
24小时热文
更多
-
2026-06-23 19:49:17 -
2026-06-23 17:48:26 -
2026-06-23 17:46:47