1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:一个「always」站在大模型技术C位的传奇男子

正文:

怎么老是你???
这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项目新进展后,有网友发现其中提到的3-token因果卷积相关内容,沙哥早在三年前就有相关研究。

沙哥并非OpenAI的明星科学家,也不像DeepMind创始人那样频繁曝光,但他却是当今LLM核心技术的奠基者。从引用量超17万次的《Attention is all you need》,到将MoE引入LLM的谷歌早期研究,再到Adafactor算法、多查询注意力、用于Transformer的门控线性层(GLU)……他的贡献贯穿始终。

正式认识一下沙哥。他是Transformer八位作者中公认的“贡献最大”者,也是半路跑去创业Character.AI,又被谷歌“买回来”的那位。

“不是搞个人崇拜,但为什么总是Noam Shazeer?”
朱泽园自己也站出来表示,沙哥成果超前:“我也觉得Shazeer可能是个时间旅行者。”

沙哥影响力最大的工作当属2017年的《Attention Is All You Need》。当时,他偶然听到同事的对话后加入团队,成为第八位成员。短短几周内,他重新编写了整个项目代码,使Transformer项目“拉开了冲刺的序幕”。尽管他谦逊地认为自己只是平等贡献者,但大家都知道,他的加入至关重要。

此外,沙哥还参与了《Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer》,为MoE埋下伏笔。这项工作创造性地引入了Sparsely-Gated Mixture-of-Experts,提出一种新架构,具有1370亿参数的MoE被应用于堆叠的LSTM层之间。

近年来,沙哥继续推进MoE的发展,从GShard到Switch Transformers,再到ST-MoE,他为语言模型的规模和速度做出了巨大贡献。

为解决大规模模型的训练内存问题,沙哥联合提出了Adafactor优化器,早期谷歌大模型如PaLM都离不开它。他还提出了Multi Query Attention(MQA),用于Transformer推理加速。

另外,他提出的Gated Linear Layer(GLU)也被广泛应用于各种Transformer模型中。

沙哥的技术嗅觉源于其传奇成长轨迹。1974年出生的他,3岁开始自学算术,1994年参加IMO取得满分。本科毕业后加入谷歌,成为第200号员工,参与改进谷歌搜索拼写纠正功能,开发广告系统PHIL,创建垃圾邮件检测系统……

2012年重回谷歌后,他转向深度学习研究,推动神经机器翻译落地,发表《Attention Is All You Need》。

去年8月,他重返谷歌担任工程副总裁、Gemini联合技术主管。

一个可能不为人所知的故事是,他在OpenAI早期阶段是顾问之一,并极力推荐奥特曼担任CEO。

2020年,谷歌Meena聊天机器人发布后,沙哥发了一封名为“Meena吞噬世界”的内部信,预言语言模型将在全球算力中占主导地位。

— 完 —

原文链接
本文链接:https://kx.umi6.com/article/18403.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Sora遭遇强敌,造梦机器爆红:实测效果让人意外
2024-06-14 08:42:36
谷歌搜索上线 AI Mode:一问一答,聊天式智能解决你的复杂难题
2025-05-02 07:51:45
OpenAI发布生图神器狙击Google,一句话精细P图
2025-03-26 08:41:03
24小时热文
更多
扫一扫体验小程序