大神卡帕西讲解强化学习！最新大模型内部机制视频爆火，“没有技术背景也能看懂”

西风发自凹非寺

量子位 | 公众号 QbitAI

AI大神Andrej Karpathy的新年第一课来了——发布三小时半视频课，解析ChatGPT等大语言模型的内部工作机制，涵盖模型训练、应用及未来趋势。

卡帕西强调，视频面向大众，即使没有技术背景也能看懂。

他在视频中用具体示例如GPT-2、Llama 3.1等，详细讲述大模型原理。DeepSeek成为一大重点。

刚发布就被网友围观，评价极高。

重点一览

卡帕西解答了关于ChatGPT等工具的疑问，详细讲解了模型构建、预训练、监督微调、强化学习等阶段。

预训练阶段涉及下载和处理互联网数据、文本提取、语言过滤、去重、tokenization等步骤。模型通过大量互联网文档数据学习生成文本的能力。

模型通过学习对话数据进行微调和强化学习，使其能生成符合人类期望的回答。卡帕西讨论了强化学习在大语言模型中的应用及其重要性，特别是DeepSeek的最新进展。

他还介绍了人类反馈的强化学习（RLHF）工作原理及其优缺点。

最后，卡帕西提到多模态模型的发展，模型能够将音频、图像和文本转化为tokens，并在同一个模型中处理。

卡帕西曾任特斯拉AI主管，后加入OpenAI，去年2月离职。他创办了AI原生的新型学校Eureka Labs，致力于打造“教师+人工智能的共生”。

视频链接：https://www.youtube.com/watch?v=7kVfqmGtDL8

参考链接：https://x.com/karpathy/status/1887211193099825254

Eureka Labs：
eurekalabs.ai
github.com/EurekaLabsAI

原文链接

本文链接：https://kx.umi6.com/article/12713.html

转载请注明文章出处

卡帕西

大模型

强化学习

分享至

打开微信扫一扫

内容投诉

生成图片

月光编码师

721 文章

789672 浏览

24小时热文