5分钟读懂Lilian Weng万字长文：大模型是怎么思考的？

2025-05-22 18:40:48

Journeyman

发布在

科普

阅读：600

标题：5分钟读懂Lilian Weng万字长文：大模型是如何思考的？

正文：最近有三篇热门博客，分别是OpenAI研究员姚顺雨的“欢迎来到下半场”、David Silver和Richard S. Sutton的“Welcome to the Era of Experience”，以及Lilian Weng的Why We Think。后者由John Schulman润色。

Lilian Weng的新博客系统性梳理了AI最新范式：test-time compute。她的理论源于丹尼尔·卡尼曼的《思考，快与慢》，将AI的推理过程分为类似人类的“系统1”（快速直觉）和“系统2”（慢速分析）。增加计算资源能让模型模仿“系统2”的思考方式。

从数学角度看，问题-思考过程-答案可视为概率模型，思考过程是隐变量。模型通过思维链（CoT）动态分配计算资源，尤其适用于复杂任务。

如何让模型学会思考？第一招是思维链。早期模型学习人类推理，后来发现强化学习在验证数据集上的效果更佳。模型越大，思维链带来的好处越多。推理有并行采样（如best-of-N）和顺序改进（如初稿-修改-定稿）两种方法。

第二招是强化学习。以DeepSeek R1为例，训练流程包括冷启动、强化学习（奖励正确格式与答案）、拒绝采样及非推理监督微调。即使没有预训练阶段，强化学习也能让模型掌握高级推理能力。此外，DeepSeek团队分享了失败案例，如过程奖励模型和蒙特卡洛树搜索。

第三招是外部工具使用。模型可通过调用工具如代码解释器、网页搜索等提升效率。OpenAI和Claude 3.7 Sonnet已开始强调工具应用。

思考忠实性是关键问题，强化训练的模型更易展现真实的思维链。然而，直接奖励“诚实”思考可能导致模型隐藏意图。此外，还有其他思考方式，如动态调整RNN深度、改进Transformer架构使其具备循环特性，以及引入“思考token”。

“多想”并非总有益。增加推理时间虽能提升性能，但需基于模型基础潜力。Lilian Weng提出了多个开放性问题，如如何平衡人类可读性与真实思考反映、避免奖励作弊、设计个性化任务的训练方法等。未来，AI能否真正思考而非仅模拟思考，值得期待。或许这一天已不远。

原文链接

本文链接：https://kx.umi6.com/article/19084.html

转载请注明文章出处

test-time compute

大模型

思考过程

分享至

打开微信扫一扫

内容投诉

生成图片

Journeyman

657 文章

527380 浏览

24小时热文

昇腾超节点系列产品全面支持DeepSeek V4新模型

2026-04-24 13:15:05
联通在线申请注册呦爱机器人商标

2026-04-24 13:14:01
京东方申请注册AI工厂商标

2026-04-24 13:12:56