斯坦福大模型推理课免费开放,谷歌推理团队创始人主讲
量子位 | 公众号 QbitAI
干货来了!谷歌DeepMind推理负责人Denny Zhou在斯坦福大学CS25课程上分享了关于大模型推理的精彩内容。这位Google Brain推理团队的创建者曾与清华姚班马腾宇等人证明:只要思维链足够长,Transformer就能解决任何问题。
大模型推理的核心
大模型推理指的是模型在输出最终答案前生成的中间思考步骤。例如,问“‘artificial intelligence’每个单词最后一个字母连起来是什么?”有推理的回答会先分别找出“l”和“e”,再拼接成“le”;而无推理的回答则直接给出“le”。
中间步骤的重要性在于:
1. 让复杂问题可解:对于布尔电路规模为T的问题,固定大小的Transformer通过生成O(T)步中间步骤即可解决,否则需要极深的模型或无法完成任务。
2. 提升答案准确性:推理步骤减少随机猜测概率,尤其对数学、因果分析等逻辑问题更有效。例如,“我有3个苹果,爸爸比我多2个,一共多少个?”有推理的回答会清晰推导出“8个”。
3. 增强模型信心:有推理过程的答案让模型更自信,且预训练模型本身已具备推理能力,但需通过特定方法激发。
如何激发推理能力?
- 提示法:通过思维链提示(如提供带步骤的例子)或简单指令(如“让我们一步步想”),引导模型生成推理路径。
- 改变解码方式:CoT-decoding方法从top-k解码路径中选择信心高且带推理的路径,效果接近指令微调模型。
- 监督微调(SFT):用人类书写的带步骤数据训练模型,但泛化性有限。改进方法包括自我改进和强化学习微调。
- 聚合与检索:通过生成多个回答并选择最一致的答案,或结合检索与推理,提升结果质量。
未来方向
Denny Zhou总结提升LLM推理能力的关键要点:推理优于不推理、强化学习微调优于监督微调、聚合优于单个答案、检索+推理优于仅推理。未来研究应聚焦非唯一答案任务及实际应用。
Denny Zhou简介
Denny Zhou是中科院博士,曾任职微软高级研究员,后加入Google创立推理团队。他的研究目标是通过构建具备推理能力的大语言模型推动AGI发展,涵盖思维链、自洽性、零样本学习等领域。近年来,他多次受邀在顶尖高校演讲,并荣获谷歌研究技术影响力奖等荣誉。
完整课件PDF:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf
.png)

-
2025-07-26 15:44:12
-
2025-07-26 15:42:01
-
2025-07-26 15:41:51