1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大模型推理课免费开放,谷歌推理团队创始人主讲

量子位 | 公众号 QbitAI

干货来了!谷歌DeepMind推理负责人Denny Zhou在斯坦福大学CS25课程上分享了关于大模型推理的精彩内容。这位Google Brain推理团队的创建者曾与清华姚班马腾宇等人证明:只要思维链足够长,Transformer就能解决任何问题。

大模型推理的核心

大模型推理指的是模型在输出最终答案前生成的中间思考步骤。例如,问“‘artificial intelligence’每个单词最后一个字母连起来是什么?”有推理的回答会先分别找出“l”和“e”,再拼接成“le”;而无推理的回答则直接给出“le”。

中间步骤的重要性在于:
1. 让复杂问题可解:对于布尔电路规模为T的问题,固定大小的Transformer通过生成O(T)步中间步骤即可解决,否则需要极深的模型或无法完成任务。
2. 提升答案准确性:推理步骤减少随机猜测概率,尤其对数学、因果分析等逻辑问题更有效。例如,“我有3个苹果,爸爸比我多2个,一共多少个?”有推理的回答会清晰推导出“8个”。
3. 增强模型信心:有推理过程的答案让模型更自信,且预训练模型本身已具备推理能力,但需通过特定方法激发。

如何激发推理能力?

  1. 提示法:通过思维链提示(如提供带步骤的例子)或简单指令(如“让我们一步步想”),引导模型生成推理路径。
  2. 改变解码方式:CoT-decoding方法从top-k解码路径中选择信心高且带推理的路径,效果接近指令微调模型。
  3. 监督微调(SFT):用人类书写的带步骤数据训练模型,但泛化性有限。改进方法包括自我改进和强化学习微调。
  4. 聚合与检索:通过生成多个回答并选择最一致的答案,或结合检索与推理,提升结果质量。

未来方向

Denny Zhou总结提升LLM推理能力的关键要点:推理优于不推理、强化学习微调优于监督微调、聚合优于单个答案、检索+推理优于仅推理。未来研究应聚焦非唯一答案任务及实际应用。

Denny Zhou简介

Denny Zhou是中科院博士,曾任职微软高级研究员,后加入Google创立推理团队。他的研究目标是通过构建具备推理能力的大语言模型推动AGI发展,涵盖思维链、自洽性、零样本学习等领域。近年来,他多次受邀在顶尖高校演讲,并荣获谷歌研究技术影响力奖等荣誉。

完整课件PDF:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

原文链接
本文链接:https://kx.umi6.com/article/22361.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
AI Agent迈向中央舞台:深度解析2025年进化新格局
2025-05-26 20:45:45
o1 模型完整思维链成 OpenAI 头号禁忌,问多了等着封号吧
2024-09-15 20:24:15
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
纯靠“脑补”图像,大模型推理准确率狂飙80%丨剑桥谷歌新研究
2025-05-21 17:08:17
无愧地表最强AI!Grok 3“思维链 × DeepSearch”杀手锏来袭
2025-02-18 16:22:30
这个AI伴侣连脑回路都能看到了,体验有什么不一样
2024-10-25 22:02:48
OpenAI 升级 o3-mini 模型思维链,提高 AI 推理透明度
2025-02-07 07:46:38
慢思考准确率反降30%!普林斯顿揭示思维链某些任务上失效的秘密
2024-11-05 15:02:58
谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”
2025-05-20 14:40:51
Anthropic 研究揭示:AI 推理的思维链解释不可全信
2025-05-20 12:40:05
马斯克:Grok 3 模型将在一到两周内发布,现处于最后准备阶段
2025-02-13 17:14:32
Jason Wei也被小扎带走:思维链开创者、o1系列奠基人!这次真挖到OpenAI大动脉了
2025-07-16 14:02:38
剑指 OpenAI 和谷歌,马斯克的 Grok 3 AI 模型即将登场
2025-01-31 12:53:31
24小时热文
更多
扫一扫体验小程序