标题:5分钟读懂Lilian Weng万字长文:大模型是如何思考的?
正文:最近有三篇热门博客,分别是OpenAI研究员姚顺雨的“欢迎来到下半场”、David Silver和Richard S. Sutton的“Welcome to the Era of Experience”,以及Lilian Weng的Why We Think。后者由John Schulman润色。
Lilian Weng的新博客系统性梳理了AI最新范式:test-time compute。她的理论源于丹尼尔·卡尼曼的《思考,快与慢》,将AI的推理过程分为类似人类的“系统1”(快速直觉)和“系统2”(慢速分析)。增加计算资源能让模型模仿“系统2”的思考方式。
从数学角度看,问题-思考过程-答案可视为概率模型,思考过程是隐变量。模型通过思维链(CoT)动态分配计算资源,尤其适用于复杂任务。
如何让模型学会思考?第一招是思维链。早期模型学习人类推理,后来发现强化学习在验证数据集上的效果更佳。模型越大,思维链带来的好处越多。推理有并行采样(如best-of-N)和顺序改进(如初稿-修改-定稿)两种方法。
第二招是强化学习。以DeepSeek R1为例,训练流程包括冷启动、强化学习(奖励正确格式与答案)、拒绝采样及非推理监督微调。即使没有预训练阶段,强化学习也能让模型掌握高级推理能力。此外,DeepSeek团队分享了失败案例,如过程奖励模型和蒙特卡洛树搜索。
第三招是外部工具使用。模型可通过调用工具如代码解释器、网页搜索等提升效率。OpenAI和Claude 3.7 Sonnet已开始强调工具应用。
思考忠实性是关键问题,强化训练的模型更易展现真实的思维链。然而,直接奖励“诚实”思考可能导致模型隐藏意图。此外,还有其他思考方式,如动态调整RNN深度、改进Transformer架构使其具备循环特性,以及引入“思考token”。
“多想”并非总有益。增加推理时间虽能提升性能,但需基于模型基础潜力。Lilian Weng提出了多个开放性问题,如如何平衡人类可读性与真实思考反映、避免奖励作弊、设计个性化任务的训练方法等。未来,AI能否真正思考而非仅模拟思考,值得期待。或许这一天已不远。
-
2026-04-24 13:15:05 -
2026-04-24 13:14:01 -
2026-04-24 13:12:56