1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:5分钟读懂Lilian Weng万字长文:大模型是如何思考的?

正文:最近有三篇热门博客,分别是OpenAI研究员姚顺雨的“欢迎来到下半场”、David Silver和Richard S. Sutton的“Welcome to the Era of Experience”,以及Lilian Weng的Why We Think。后者由John Schulman润色。

Lilian Weng的新博客系统性梳理了AI最新范式:test-time compute。她的理论源于丹尼尔·卡尼曼的《思考,快与慢》,将AI的推理过程分为类似人类的“系统1”(快速直觉)和“系统2”(慢速分析)。增加计算资源能让模型模仿“系统2”的思考方式。

从数学角度看,问题-思考过程-答案可视为概率模型,思考过程是隐变量。模型通过思维链(CoT)动态分配计算资源,尤其适用于复杂任务。

如何让模型学会思考?第一招是思维链。早期模型学习人类推理,后来发现强化学习在验证数据集上的效果更佳。模型越大,思维链带来的好处越多。推理有并行采样(如best-of-N)和顺序改进(如初稿-修改-定稿)两种方法。

第二招是强化学习。以DeepSeek R1为例,训练流程包括冷启动、强化学习(奖励正确格式与答案)、拒绝采样及非推理监督微调。即使没有预训练阶段,强化学习也能让模型掌握高级推理能力。此外,DeepSeek团队分享了失败案例,如过程奖励模型和蒙特卡洛树搜索。

第三招是外部工具使用。模型可通过调用工具如代码解释器、网页搜索等提升效率。OpenAI和Claude 3.7 Sonnet已开始强调工具应用。

思考忠实性是关键问题,强化训练的模型更易展现真实的思维链。然而,直接奖励“诚实”思考可能导致模型隐藏意图。此外,还有其他思考方式,如动态调整RNN深度、改进Transformer架构使其具备循环特性,以及引入“思考token”。

“多想”并非总有益。增加推理时间虽能提升性能,但需基于模型基础潜力。Lilian Weng提出了多个开放性问题,如如何平衡人类可读性与真实思考反映、避免奖励作弊、设计个性化任务的训练方法等。未来,AI能否真正思考而非仅模拟思考,值得期待。或许这一天已不远。

原文链接
本文链接:https://kx.umi6.com/article/19084.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
智谱与市城投集团合作发布杭州城投人工智能产业大模型项目(一期)建设成果
2025-09-15 20:01:43
用DeepSeek改造ERP,到底难在哪?怎么破?
2025-10-11 09:33:30
美团 LongCat 大模型官方 App 发布:支持联网搜索,还可以发起语音通话
2025-11-03 14:22:48
DeepSeek V3.2、GLM4.6等大模型即将发布
2025-09-29 17:14:30
豆包大模型2.0正式发布
2026-02-14 14:23:01
大模型激战正酣!大厂节前、节中进展不停 争夺下一代操作系统主导权
2025-10-05 18:23:27
中国AI云,开始「抢座次」了
2025-11-20 11:17:00
OpenAI的命门,决定了大模型公司的未来
2025-09-03 14:48:12
大厂AI新战场:AQ狂飙,蚂蚁押注大健康赛道
2025-11-09 16:34:57
真正面向大模型的AI Infra,必须同时懂模型、系统、产业|商汤大装置宣善明@MEET2026
2025-12-22 10:35:49
阿里巴巴CEO吴泳铭:大模型是下一代操作系统 AI Cloud是下一代计算机
2025-09-24 10:37:04
腾讯AI下了一场「及时雨」
2025-12-19 10:42:16
美图吴欣鸿回应大模型竞争:美图应用数据仍在快速增长
2026-02-05 18:05:31
24小时热文
更多
扫一扫体验小程序