标题:翁荔最新万字长文:Why We Think
正文:
北大校友、前OpenAI华人VP翁荔发布了一篇关于“测试时计算”(Test-time Compute)和“思维链”(Chain-of-Thought,CoT)的万字长文《Why We Think》。
文章探讨了如何通过这些技术显著提升模型性能。翁荔指出,让模型在输出答案前多思考一会儿(如通过智能解码、思维链推理、潜在思考等方法),能显著提升其智能水平,突破当前的能力瓶颈。
网友们评价此篇文章“精彩”,认为它打开了人工智能理解的新维度。
文章首先介绍了动机,即通过几种方式激发模型思考更长时间。接着,文章将核心思想与人类思考方式联系起来,引用了Daniel Kahneman的双系统理论:快速思考(系统1)和慢速思考(系统2)。系统1快速但易出错,而系统2需更多认知资源但更理性。
从资源角度看,深度学习中神经网络通过计算量和存储量解决问题。优化架构或系统以在测试时进行更多计算,能让模型更高效。
潜变量建模方面,通过观察数学题目、正确答案及推导过程的分布,优化边缘概率有助于理解多并行CoT采样或搜索算法。
基于Token的思考方法也得到了探索,包括监督学习生成器和验证器,以及强化学习在自动验证答案数据集上的应用。
测试时计算旨在自适应修改模型推理时的输出分布,主要方法包括并行采样(如N选1、束搜索)和顺序修订。并行采样简单直观,但受限于模型一次性获取正确解的能力;顺序修订则需依赖微调模型,否则可能性能下降。
强化学习与外部工具整合也是重点,如代码执行、知识搜索等。此外,文章还讨论了思维忠实性验证、奖励破解风险以及未来挑战,如如何设计无监督场景下的自我修正机制等。
原文链接
本文链接:https://kx.umi6.com/article/18769.html
转载请注明文章出处
相关推荐
换一换
官方揭秘ChatGPT Agent背后原理!通过强化学习让模型自主探索最佳工具组合
2025-07-24 16:09:58
AI仅凭“自信”学会推理,浙大校友复刻DeepSeek长思维链涌现
2025-05-29 14:32:01
我不给人做产品,给Agent做
2025-06-30 08:39:41
性能提升84%-166%!L-Zero仅靠强化学习解锁大模型探索世界的能力 | 已开源
2025-07-01 15:26:33
机器人运控训练步入分钟级时代!清华AIR开源UniLab:3分钟训好人形,速度暴涨10倍,Mac上也能跑
2026-06-02 12:26:59
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
全球闲置算力训个模型,性能媲美R1,老黄“天塌了”
2025-05-16 14:29:01
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
Epoch AI 预言:最快 1 年内,推理模型步伐将放缓
2025-05-14 09:09:06
清华刘洋团队论文:揭示为何 70B 的医疗模型,反而不如 8B 会问诊丨ILCR 2026
2026-02-24 14:48:42
汪军对话 Rich Sutton:大模型在一定程度上分散了我们对智能理解的注意力
2025-09-28 11:53:51
Meta万引强化学习大佬跑路!用小扎原话作为离别寄语,扎心了
2025-08-26 13:43:07
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
747 文章
669023 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41