Attention Residuals - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

Kimi新架构让马斯克叹服！17岁高中生作者一战成名

2026年3月，Kimi团队发布了一项名为Attention Residuals的创新技术，将注意力机制应用于深度维度，显著提升模型效率。该技术通过‘选择性回忆’前层信息，解决了传统残差连接的‘记忆负担’问题，并利用分块压缩方法降低计算复杂度。在Kimi Linear 48B大模型上验证，训练效率提升25%，推理延迟增加不到2%。论文引发广泛关注，包括马斯克和AI领域专家Karpathy的高度评价。值得一提的是，论文共同一作之一是17岁高中生陈广宇，他从北京黑客松起步，逐步深入大模型研究，最终加入Kimi团队并参与核心研发。这项成果展示了‘时间-深度对偶性’的应用潜力，为深度学习优化提供了新方向。

原文链接

镜像现实MirageX

03-17 15:39:50

Attention Residuals

Kimi Linear

陈广宇

分享至

打开微信扫一扫

内容投诉

生成图片

中国AI新突破！马斯克点赞Kimi新架构 Kimi幽默回应：你的火箭也不错

3月17日，特斯拉CEO马斯克点赞中国AI公司Kimi的全新Attention Residuals机制，称其“令人印象深刻”。Kimi幽默回应：“你的火箭造得也不错！”该技术颠覆传统残差连接，为AI模型装上“智能筛选器”，动态筛选信息、提升传递效率，同时通过“块注意力残差”策略平衡性能与效率，推理延迟仅增不到2%。实测显示，48B参数模型训练效率提升1.25倍，科学推理和数学题作答成绩分别提高7.5%和3.6%。前OpenAI研究副总裁Jerry Tworek评价称“深度学习2.0来了”，彰显这一成果的技术分量与行业影响力。

原文链接