标题:一个「always」站在大模型技术C位的传奇男子
正文:
怎么老是你???
这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项目新进展后,有网友发现其中提到的3-token因果卷积相关内容,沙哥早在三年前就有相关研究。
沙哥并非OpenAI的明星科学家,也不像DeepMind创始人那样频繁曝光,但他却是当今LLM核心技术的奠基者。从引用量超17万次的《Attention is all you need》,到将MoE引入LLM的谷歌早期研究,再到Adafactor算法、多查询注意力、用于Transformer的门控线性层(GLU)……他的贡献贯穿始终。
正式认识一下沙哥。他是Transformer八位作者中公认的“贡献最大”者,也是半路跑去创业Character.AI,又被谷歌“买回来”的那位。
“不是搞个人崇拜,但为什么总是Noam Shazeer?”
朱泽园自己也站出来表示,沙哥成果超前:“我也觉得Shazeer可能是个时间旅行者。”
沙哥影响力最大的工作当属2017年的《Attention Is All You Need》。当时,他偶然听到同事的对话后加入团队,成为第八位成员。短短几周内,他重新编写了整个项目代码,使Transformer项目“拉开了冲刺的序幕”。尽管他谦逊地认为自己只是平等贡献者,但大家都知道,他的加入至关重要。
此外,沙哥还参与了《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,为MoE埋下伏笔。这项工作创造性地引入了Sparsely-Gated Mixture-of-Experts,提出一种新架构,具有1370亿参数的MoE被应用于堆叠的LSTM层之间。
近年来,沙哥继续推进MoE的发展,从GShard到Switch Transformers,再到ST-MoE,他为语言模型的规模和速度做出了巨大贡献。
为解决大规模模型的训练内存问题,沙哥联合提出了Adafactor优化器,早期谷歌大模型如PaLM都离不开它。他还提出了Multi Query Attention(MQA),用于Transformer推理加速。
另外,他提出的Gated Linear Layer(GLU)也被广泛应用于各种Transformer模型中。
沙哥的技术嗅觉源于其传奇成长轨迹。1974年出生的他,3岁开始自学算术,1994年参加IMO取得满分。本科毕业后加入谷歌,成为第200号员工,参与改进谷歌搜索拼写纠正功能,开发广告系统PHIL,创建垃圾邮件检测系统……
2012年重回谷歌后,他转向深度学习研究,推动神经机器翻译落地,发表《Attention Is All You Need》。
去年8月,他重返谷歌担任工程副总裁、Gemini联合技术主管。
一个可能不为人所知的故事是,他在OpenAI早期阶段是顾问之一,并极力推荐奥特曼担任CEO。
2020年,谷歌Meena聊天机器人发布后,沙哥发了一封名为“Meena吞噬世界”的内部信,预言语言模型将在全球算力中占主导地位。
— 完 —
.png)

-
2025-07-18 23:46:25
-
2025-07-18 22:47:06
-
2025-07-18 22:46:21