2025年图灵奖：强化学习的前世今生

2025-04-01 10:19:18

2025年图灵奖：强化学习的前世今生

像素宇宙

发布在

快讯

阅读：814

3月5日，图灵奖授予安德鲁·巴托和理查德·萨顿，表彰他们在强化学习领域的开创性贡献。强化学习作为机器学习重要分支，通过智能体与环境交互调整策略实现学习。巴托与萨顿在20世纪80年代奠定理论基础，提出时序差分学习和演员—评论家模型，推动其成为独立学科。Q学习算法进一步完善了强化学习框架，而深度学习与强化学习结合的深度Q网络（DQN）则使AI在雅达利游戏中表现优异。AlphaGo通过监督学习与强化学习结合击败围棋冠军李世石，AlphaZero更通过自我对弈超越人类顶尖棋手，展示通用性。尽管强化学习曾因监督学习优势下降而受质疑，但DeepSeek通过创新算法GRPO证明其强大潜力，再次引起广泛关注。

原文链接

本文链接：https://kx.umi6.com/article/16542.html

转载请注明文章出处

图灵奖