2026年3月,Kimi团队发布了一项名为Attention Residuals的创新技术,将注意力机制应用于深度维度,显著提升模型效率。该技术通过‘选择性回忆’前层信息,解决了传统残差连接的‘记忆负担’问题,并利用分块压缩方法降低计算复杂度。在Kimi Linear 48B大模型上验证,训练效率提升25%,推理延迟增加不到2%。论文引发广泛关注,包括马斯克和AI领域专家Karpathy的高度评价。值得一提的是,论文共同一作之一是17岁高中生陈广宇,他从北京黑客松起步,逐步深入大模型研究,最终加入Kimi团队并参与核心研发。这项成果展示了‘时间-深度对偶性’的应用潜力,为深度学习优化提供了新方向。
原文链接
本文链接:https://kx.umi6.com/article/33828.html
转载请注明文章出处
相关推荐
换一换
MiniMax与Kimi,隔空交手
2025-11-03 09:10:57
中国AI新突破!马斯克点赞Kimi新架构 Kimi幽默回应:你的火箭也不错
2026-03-17 13:33:34
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
2025-10-31 17:41:14
CVPR 2026现场直击:CV与机器人的物理结界被彻底打破
2026-06-05 19:24:24
高通点赞广汽埃安N60智驾大赛获亚军,文远知行WRD 3.0亮相高通峰会
2026-06-08 12:23:30
估值2.5亿美元!全球首个AI游戏社区Aippy完成独立融资
2026-06-08 07:13:40
AI创业者集结!“2026新一代人工智能(深圳)创业创新大赛”正式启动
2026-06-08 18:39:30
GitHub 被AI打穿了
2026-06-05 19:15:06
NVIDIA发布Cosmos 3:全球首个全开源物理AI全能模型面世
2026-06-05 00:32:58
100亿砸向人形,不如先让10万台机器狗走进家庭
2026-06-05 16:04:29
让机器人行动更有依据:复旦等提出 GuidedVLA,提升 VLA 可控可解释能力
2026-06-08 11:27:33
连GitLab都开始裁程序员了
2026-06-04 17:12:53
中国AI大模型周调用量连续6周超越美国:前4名均为国产模型
2026-06-08 12:24:46
708 文章
609116 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41