斯坦福大模型推理课免费了，谷歌推理团队创始人主讲 - AI优秘圈

1

免责声明：Al优秘圈所有资讯仅代表作者个人观点，不构成任何投资理财建议。请确保访问网址为（kx.umi6.com) 投诉及建议

7*24小时快讯

AI科普

合作

扫一扫体验小程序

小杨哥

个人资料

曝光推广

客户留言

投诉及建议

退出登录

×

7*24小时快讯 AI科普合作

2025-07-25 17:26:56

斯坦福大模型推理课免费了，谷歌推理团队创始人主讲

智能涌动

发布在

科普

阅读：51

斯坦福大模型推理课免费开放，谷歌推理团队创始人主讲

量子位 | 公众号 QbitAI

干货来了！谷歌DeepMind推理负责人Denny Zhou在斯坦福大学CS25课程上分享了关于大模型推理的精彩内容。这位Google Brain推理团队的创建者曾与清华姚班马腾宇等人证明：只要思维链足够长，Transformer就能解决任何问题。

大模型推理的核心

大模型推理指的是模型在输出最终答案前生成的中间思考步骤。例如，问“‘artificial intelligence’每个单词最后一个字母连起来是什么？”有推理的回答会先分别找出“l”和“e”，再拼接成“le”；而无推理的回答则直接给出“le”。

中间步骤的重要性在于：
1. 让复杂问题可解：对于布尔电路规模为T的问题，固定大小的Transformer通过生成O(T)步中间步骤即可解决，否则需要极深的模型或无法完成任务。
2. 提升答案准确性：推理步骤减少随机猜测概率，尤其对数学、因果分析等逻辑问题更有效。例如，“我有3个苹果，爸爸比我多2个，一共多少个？”有推理的回答会清晰推导出“8个”。
3. 增强模型信心：有推理过程的答案让模型更自信，且预训练模型本身已具备推理能力，但需通过特定方法激发。

如何激发推理能力？

提示法：通过思维链提示（如提供带步骤的例子）或简单指令（如“让我们一步步想”），引导模型生成推理路径。
改变解码方式：CoT-decoding方法从top-k解码路径中选择信心高且带推理的路径，效果接近指令微调模型。
监督微调（SFT）：用人类书写的带步骤数据训练模型，但泛化性有限。改进方法包括自我改进和强化学习微调。
聚合与检索：通过生成多个回答并选择最一致的答案，或结合检索与推理，提升结果质量。

未来方向

Denny Zhou总结提升LLM推理能力的关键要点：推理优于不推理、强化学习微调优于监督微调、聚合优于单个答案、检索+推理优于仅推理。未来研究应聚焦非唯一答案任务及实际应用。

Denny Zhou简介

Denny Zhou是中科院博士，曾任职微软高级研究员，后加入Google创立推理团队。他的研究目标是通过构建具备推理能力的大语言模型推动AGI发展，涵盖思维链、自洽性、零样本学习等领域。近年来，他多次受邀在顶尖高校演讲，并荣获谷歌研究技术影响力奖等荣誉。

完整课件PDF：https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

原文链接

本文链接：https://kx.umi6.com/article/22361.html

转载请注明文章出处

大模型推理

强化学习微调

思维链

分享至

打开微信扫一扫

内容投诉

生成图片

智能涌动

462 文章

65765 浏览

阅读更多

24小时热文

更多

我国自主研发“磐石·科学基础大模型”发布

2025-07-26 15:44:12
我国自主研发“磐石・科学基础大模型”发布：系统掌握数理化天地生六大学科核心定理

2025-07-26 15:42:01
“AI 教父”辛顿首次访华演讲：要像养虎一样把 AI 训练好，让它不“杀”你

2025-07-26 15:41:51

扫一扫体验小程序