1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:一个「always」站在大模型技术C位的传奇男子

正文:

怎么老是你???
这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项目新进展后,有网友发现其中提到的3-token因果卷积相关内容,沙哥早在三年前就有相关研究。

沙哥并非OpenAI的明星科学家,也不像DeepMind创始人那样频繁曝光,但他却是当今LLM核心技术的奠基者。从引用量超17万次的《Attention is all you need》,到将MoE引入LLM的谷歌早期研究,再到Adafactor算法、多查询注意力、用于Transformer的门控线性层(GLU)……他的贡献贯穿始终。

正式认识一下沙哥。他是Transformer八位作者中公认的“贡献最大”者,也是半路跑去创业Character.AI,又被谷歌“买回来”的那位。

“不是搞个人崇拜,但为什么总是Noam Shazeer?”
朱泽园自己也站出来表示,沙哥成果超前:“我也觉得Shazeer可能是个时间旅行者。”

沙哥影响力最大的工作当属2017年的《Attention Is All You Need》。当时,他偶然听到同事的对话后加入团队,成为第八位成员。短短几周内,他重新编写了整个项目代码,使Transformer项目“拉开了冲刺的序幕”。尽管他谦逊地认为自己只是平等贡献者,但大家都知道,他的加入至关重要。

此外,沙哥还参与了《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,为MoE埋下伏笔。这项工作创造性地引入了Sparsely-Gated Mixture-of-Experts,提出一种新架构,具有1370亿参数的MoE被应用于堆叠的LSTM层之间。

近年来,沙哥继续推进MoE的发展,从GShard到Switch Transformers,再到ST-MoE,他为语言模型的规模和速度做出了巨大贡献。

为解决大规模模型的训练内存问题,沙哥联合提出了Adafactor优化器,早期谷歌大模型如PaLM都离不开它。他还提出了Multi Query Attention(MQA),用于Transformer推理加速。

另外,他提出的Gated Linear Layer(GLU)也被广泛应用于各种Transformer模型中。

沙哥的技术嗅觉源于其传奇成长轨迹。1974年出生的他,3岁开始自学算术,1994年参加IMO取得满分。本科毕业后加入谷歌,成为第200号员工,参与改进谷歌搜索拼写纠正功能,开发广告系统PHIL,创建垃圾邮件检测系统……

2012年重回谷歌后,他转向深度学习研究,推动神经机器翻译落地,发表《Attention Is All You Need》。

去年8月,他重返谷歌担任工程副总裁、Gemini联合技术主管。

一个可能不为人所知的故事是,他在OpenAI早期阶段是顾问之一,并极力推荐奥特曼担任CEO。

2020年,谷歌Meena聊天机器人发布后,沙哥发了一封名为“Meena吞噬世界”的内部信,预言语言模型将在全球算力中占主导地位。

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/18403.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
谷歌测试用 AI 改写新闻标题引争议:被吐槽标题党且未清晰标注
2025-12-03 09:16:30
Gemini3 Flash,谷歌的无解阳谋
2025-12-19 10:42:06
因 AI 生成大量未经许可的经典卡通形象,迪士尼指控谷歌大规模侵犯版权
2025-12-12 00:19:08
谷歌高层提前暗示:Android 17不再只是操作系统!
2026-02-26 15:09:36
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
谷歌 2025「复仇爽文」大结局:从至暗时刻到王者归来
2025-12-28 15:30:52
欧盟根据《数字市场法》对谷歌启动规范程序 力争在六个月内结案
2026-01-27 18:31:23
谷歌发布Gemma 4开源大模型
2026-04-03 08:43:20
2025年搜索大战,为何没有输家
2025-12-02 10:04:44
OpenAI前高管坦言公司“掉链子” 让竞争对手谷歌得以翻身
2026-01-24 00:23:19
AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷
2025-12-15 22:02:22
AI 购物新协议被指或借聊天数据“宰客”,谷歌否认
2026-01-14 16:44:56
垂直整合程度最高的AI大厂!“新王”谷歌登基:整个硅谷都在颤抖?
2025-11-25 11:48:38
24小时热文
更多
扫一扫体验小程序