一个「always」站在大模型技术C位的传奇男子

2025-05-10 12:04:35

量子思考者

发布在

科普

阅读：101

标题：一个「always」站在大模型技术C位的传奇男子

正文：

怎么老是你？？？
这是最近网友不断对着Transformer八子之一的Noam Shazeer（我们称他为沙哥）发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项目新进展后，有网友发现其中提到的3-token因果卷积相关内容，沙哥早在三年前就有相关研究。

沙哥并非OpenAI的明星科学家，也不像DeepMind创始人那样频繁曝光，但他却是当今LLM核心技术的奠基者。从引用量超17万次的《Attention is all you need》，到将MoE引入LLM的谷歌早期研究，再到Adafactor算法、多查询注意力、用于Transformer的门控线性层（GLU）……他的贡献贯穿始终。

正式认识一下沙哥。他是Transformer八位作者中公认的“贡献最大”者，也是半路跑去创业Character.AI，又被谷歌“买回来”的那位。

“不是搞个人崇拜，但为什么总是Noam Shazeer？”
朱泽园自己也站出来表示，沙哥成果超前：“我也觉得Shazeer可能是个时间旅行者。”

沙哥影响力最大的工作当属2017年的《Attention Is All You Need》。当时，他偶然听到同事的对话后加入团队，成为第八位成员。短短几周内，他重新编写了整个项目代码，使Transformer项目“拉开了冲刺的序幕”。尽管他谦逊地认为自己只是平等贡献者，但大家都知道，他的加入至关重要。

此外，沙哥还参与了《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》，为MoE埋下伏笔。这项工作创造性地引入了Sparsely-Gated Mixture-of-Experts，提出一种新架构，具有1370亿参数的MoE被应用于堆叠的LSTM层之间。

近年来，沙哥继续推进MoE的发展，从GShard到Switch Transformers，再到ST-MoE，他为语言模型的规模和速度做出了巨大贡献。

为解决大规模模型的训练内存问题，沙哥联合提出了Adafactor优化器，早期谷歌大模型如PaLM都离不开它。他还提出了Multi Query Attention（MQA），用于Transformer推理加速。

另外，他提出的Gated Linear Layer（GLU）也被广泛应用于各种Transformer模型中。

沙哥的技术嗅觉源于其传奇成长轨迹。1974年出生的他，3岁开始自学算术，1994年参加IMO取得满分。本科毕业后加入谷歌，成为第200号员工，参与改进谷歌搜索拼写纠正功能，开发广告系统PHIL，创建垃圾邮件检测系统……

2012年重回谷歌后，他转向深度学习研究，推动神经机器翻译落地，发表《Attention Is All You Need》。

去年8月，他重返谷歌担任工程副总裁、Gemini联合技术主管。

一个可能不为人所知的故事是，他在OpenAI早期阶段是顾问之一，并极力推荐奥特曼担任CEO。

2020年，谷歌Meena聊天机器人发布后，沙哥发了一封名为“Meena吞噬世界”的内部信，预言语言模型将在全球算力中占主导地位。

— 完 —

原文链接

本文链接：https://kx.umi6.com/article/18403.html

转载请注明文章出处