AI趋势正在“中场休息”,之前是训练>评估,未来将是评估>训练。这是OpenAI员工、姚班校友姚顺雨的观点。
AI发展分上下两阶段,上半场以模型和方法为中心,下半场重在定义有意义的任务及有效评估AI表现。这要求研究者转向更接近产品经理的方向。
转变的关键在于强化学习终于能泛化。姚顺雨在博客中详细阐述了这一观点,获得业内认可。
AI下半场是产品的游戏,重点从解决问题转向定义问题,评估比训练更重要。我们需要思考“AI该做什么”及“如何衡量进步”。
AI上半场,方法创新是主导,如Transformer、AlexNet等。那时,任务设定的技术含量较低,而方法更具通用价值。
强化学习的三大核心是算法、环境和先验知识。环境和先验对实际效果影响巨大,OpenAI最初试图将数字世界作为环境。
GPT-2/3时期,OpenAI意识到缺少先验知识,引入语言先验后,AI在聊天和网页任务中表现提升。
推理能力是影响泛化的关键,加入推理到动作空间,并结合语言预训练模型的先验,可大幅提升泛化能力。
当前评估方式有局限,需重新设计评估以贴近现实世界任务,形成正向循环。姚顺雨认为下半场将诞生价值巨大的产品和公司。
姚顺雨去年加入OpenAI,负责智能体研究。他曾提出思维树、SWE-bench、SWE-agent等成果。
原文链接
本文链接:https://kx.umi6.com/article/17349.html
转载请注明文章出处
相关推荐
换一换
翁荔最新万字长文:Why We Think
2025-05-18 14:20:10
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
上海 AI 实验室联合清华等大学突破强化学习算法,攻克 AI 推理熵崩溃难题
2025-06-04 08:15:30
AI「下半场」入场券人人有份
2026-01-04 16:17:36
卡帕西:强化学习很糟糕,但其他所有方法都更糟
2025-10-18 15:34:39
训练时间减半,性能不降反升!腾讯混元开源图像生成高效强化方案MixGRPO
2025-08-02 18:22:54
全新合成框架SOTA:强化学习当引擎,任务合成当燃料,蚂蚁港大联合出品
2025-10-01 18:47:16
腾讯混元再引强将,庞天宇即将入职多模态模型团队负责强化学习前沿算法探索
2026-01-30 15:35:19
Gemini2.5弯道超车背后的灵魂人物
2025-06-05 11:52:48
为何强化学习火遍硅谷?AGI的关键一步
2025-08-07 15:55:40
中金:2026年大模型在强化学习、模型记忆、上下文工程等方面将取得更多突破
2026-02-05 08:39:59
比NanoBanana更擅长中文和细节控制!兔展&北大Uniworld V2刷新SOTA
2025-11-05 15:09:36
混元OCR模型核心技术揭秘:统一框架、真端到端
2025-11-30 11:05:21
708 文章
511523 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18