1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:5分钟读懂Lilian Weng万字长文:大模型是如何思考的?

正文:最近有三篇热门博客,分别是OpenAI研究员姚顺雨的“欢迎来到下半场”、David Silver和Richard S. Sutton的“Welcome to the Era of Experience”,以及Lilian Weng的Why We Think。后者由John Schulman润色。

Lilian Weng的新博客系统性梳理了AI最新范式:test-time compute。她的理论源于丹尼尔·卡尼曼的《思考,快与慢》,将AI的推理过程分为类似人类的“系统1”(快速直觉)和“系统2”(慢速分析)。增加计算资源能让模型模仿“系统2”的思考方式。

从数学角度看,问题-思考过程-答案可视为概率模型,思考过程是隐变量。模型通过思维链(CoT)动态分配计算资源,尤其适用于复杂任务。

如何让模型学会思考?第一招是思维链。早期模型学习人类推理,后来发现强化学习在验证数据集上的效果更佳。模型越大,思维链带来的好处越多。推理有并行采样(如best-of-N)和顺序改进(如初稿-修改-定稿)两种方法。

第二招是强化学习。以DeepSeek R1为例,训练流程包括冷启动、强化学习(奖励正确格式与答案)、拒绝采样及非推理监督微调。即使没有预训练阶段,强化学习也能让模型掌握高级推理能力。此外,DeepSeek团队分享了失败案例,如过程奖励模型和蒙特卡洛树搜索。

第三招是外部工具使用。模型可通过调用工具如代码解释器、网页搜索等提升效率。OpenAI和Claude 3.7 Sonnet已开始强调工具应用。

思考忠实性是关键问题,强化训练的模型更易展现真实的思维链。然而,直接奖励“诚实”思考可能导致模型隐藏意图。此外,还有其他思考方式,如动态调整RNN深度、改进Transformer架构使其具备循环特性,以及引入“思考token”。

“多想”并非总有益。增加推理时间虽能提升性能,但需基于模型基础潜力。Lilian Weng提出了多个开放性问题,如如何平衡人类可读性与真实思考反映、避免奖励作弊、设计个性化任务的训练方法等。未来,AI能否真正思考而非仅模拟思考,值得期待。或许这一天已不远。

原文链接
本文链接:https://kx.umi6.com/article/19084.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智谱、MiniMax争夺「大模型第一股」
2025-12-24 10:30:23
大模型即OS,AI云即计算机:阿里的全栈赌注
2025-09-25 10:00:29
消息称小米研发智能问答助手产品“Mi Chat”
2025-12-09 17:51:08
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
智谱首份业绩报告:商业化全面爆发,Maas平台ARR达17亿元提升60倍
2026-03-31 18:02:15
腾讯宣布升级大模型研发架构 前OpenAI研究员姚顺雨任要职
2025-12-17 17:58:49
卓世科技,股改完成!
2026-01-05 15:08:15
智谱上市后首份财报:超7.24亿元!国内收入最高大模型公司,MaaS发力了
2026-03-31 21:04:07
腾讯混元大模型品牌 Hunyuan 更名为 HY
2025-12-10 15:53:58
顶尖技术+标准产品+创新模式+可靠服务,打造大模型商业落地中国范式
2025-12-16 10:32:22
中国中文信息学会2025学术年会暨第二届中国大模型大会(CIPS & CLM 2025)于10月28日在北京盛大开幕
2025-10-30 18:52:50
开源模型TOP5,被中国厂商包圆了
2025-10-15 17:36:49
国产模型+国产芯片“蜜月期”开启!DeepSeek、智谱密集上新 华为、寒武纪芯片火速适配
2025-09-30 21:35:35
24小时热文
更多
扫一扫体验小程序