1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

斯坦福大模型推理课免费开放,谷歌推理团队创始人主讲

量子位 | 公众号 QbitAI

干货来了!谷歌DeepMind推理负责人Denny Zhou在斯坦福大学CS25课程上分享了关于大模型推理的精彩内容。这位Google Brain推理团队的创建者曾与清华姚班马腾宇等人证明:只要思维链足够长,Transformer就能解决任何问题。

大模型推理的核心

大模型推理指的是模型在输出最终答案前生成的中间思考步骤。例如,问“‘artificial intelligence’每个单词最后一个字母连起来是什么?”有推理的回答会先分别找出“l”和“e”,再拼接成“le”;而无推理的回答则直接给出“le”。

中间步骤的重要性在于:
1. 让复杂问题可解:对于布尔电路规模为T的问题,固定大小的Transformer通过生成O(T)步中间步骤即可解决,否则需要极深的模型或无法完成任务。
2. 提升答案准确性:推理步骤减少随机猜测概率,尤其对数学、因果分析等逻辑问题更有效。例如,“我有3个苹果,爸爸比我多2个,一共多少个?”有推理的回答会清晰推导出“8个”。
3. 增强模型信心:有推理过程的答案让模型更自信,且预训练模型本身已具备推理能力,但需通过特定方法激发。

如何激发推理能力?

  1. 提示法:通过思维链提示(如提供带步骤的例子)或简单指令(如“让我们一步步想”),引导模型生成推理路径。
  2. 改变解码方式:CoT-decoding方法从top-k解码路径中选择信心高且带推理的路径,效果接近指令微调模型。
  3. 监督微调(SFT):用人类书写的带步骤数据训练模型,但泛化性有限。改进方法包括自我改进和强化学习微调。
  4. 聚合与检索:通过生成多个回答并选择最一致的答案,或结合检索与推理,提升结果质量。

未来方向

Denny Zhou总结提升LLM推理能力的关键要点:推理优于不推理、强化学习微调优于监督微调、聚合优于单个答案、检索+推理优于仅推理。未来研究应聚焦非唯一答案任务及实际应用。

Denny Zhou简介

Denny Zhou是中科院博士,曾任职微软高级研究员,后加入Google创立推理团队。他的研究目标是通过构建具备推理能力的大语言模型推动AGI发展,涵盖思维链、自洽性、零样本学习等领域。近年来,他多次受邀在顶尖高校演讲,并荣获谷歌研究技术影响力奖等荣誉。

完整课件PDF:https://dennyzhou.github.io/LLM-Reasoning-Stanford-CS-25.pdf

原文链接
本文链接:https://kx.umi6.com/article/22361.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI突然公开o3思维链!网友:让我们谢谢DeepSeek
2025-02-07 12:52:23
OpenAI突然公开o3-mini思维链,对比DeepSeek差距太明显?
2025-02-07 16:02:41
OpenAI新模型达到博士水平?我找几位博士测试了一下
2024-09-15 14:19:47
o1完整思维链成OpenAI头号禁忌!不然等着封号吧
2024-09-15 21:45:00
我读了读苹果的AI大模型论文,发现这几个秘密
2024-06-26 22:45:35
让用户无痛开发AI应用,袁进辉新公司获近亿元天使+轮融资 | 36氪首发
2024-07-04 12:29:16
AI Agent迈向中央舞台:深度解析2025年进化新格局
2025-05-26 20:45:45
xLLM社区重磅首秀,揭秘大模型推理全景图与开源AI Infra生态
2025-11-24 21:15:56
斯坦福大模型推理课免费了,谷歌推理团队创始人主讲
2025-07-25 17:26:56
阿里Qwen团队发布新推模型QwQ 会展示完整的思维链
2025-02-25 12:56:25
趋境开源框架 KTransformers 成主流大模型首选,Qwen、Kimi、智谱 AI 推荐,单卡跑万亿模型
2025-11-20 22:47:09
谷歌 DeepMind 新研究强化思维链训练,让 AI 语言模型不再“纸上谈兵”
2025-05-20 14:40:51
o1 模型完整思维链成 OpenAI 头号禁忌,问多了等着封号吧
2024-09-15 20:24:15
24小时热文
更多
扫一扫体验小程序