翁荔最新万字长文：Why We Think

2025-05-18 14:20:10

智能涌动

发布在

科普

阅读：1312

标题：翁荔最新万字长文：Why We Think

正文：

北大校友、前OpenAI华人VP翁荔发布了一篇关于“测试时计算”（Test-time Compute）和“思维链”（Chain-of-Thought，CoT）的万字长文《Why We Think》。

文章探讨了如何通过这些技术显著提升模型性能。翁荔指出，让模型在输出答案前多思考一会儿（如通过智能解码、思维链推理、潜在思考等方法），能显著提升其智能水平，突破当前的能力瓶颈。

网友们评价此篇文章“精彩”，认为它打开了人工智能理解的新维度。

文章首先介绍了动机，即通过几种方式激发模型思考更长时间。接着，文章将核心思想与人类思考方式联系起来，引用了Daniel Kahneman的双系统理论：快速思考（系统1）和慢速思考（系统2）。系统1快速但易出错，而系统2需更多认知资源但更理性。

从资源角度看，深度学习中神经网络通过计算量和存储量解决问题。优化架构或系统以在测试时进行更多计算，能让模型更高效。

潜变量建模方面，通过观察数学题目、正确答案及推导过程的分布，优化边缘概率有助于理解多并行CoT采样或搜索算法。

基于Token的思考方法也得到了探索，包括监督学习生成器和验证器，以及强化学习在自动验证答案数据集上的应用。

测试时计算旨在自适应修改模型推理时的输出分布，主要方法包括并行采样（如N选1、束搜索）和顺序修订。并行采样简单直观，但受限于模型一次性获取正确解的能力；顺序修订则需依赖微调模型，否则可能性能下降。

强化学习与外部工具整合也是重点，如代码执行、知识搜索等。此外，文章还讨论了思维忠实性验证、奖励破解风险以及未来挑战，如如何设计无监督场景下的自我修正机制等。

原文链接

本文链接：https://kx.umi6.com/article/18769.html

转载请注明文章出处

强化学习

思维链

测试时计算

分享至

打开微信扫一扫

内容投诉

生成图片

智能涌动

728 文章

591099 浏览

24小时热文