1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
Kimi新架构让马斯克叹服!17岁高中生作者一战成名
2026年3月,Kimi团队发布了一项名为Attention Residuals的创新技术,将注意力机制应用于深度维度,显著提升模型效率。该技术通过‘选择性回忆’前层信息,解决了传统残差连接的‘记忆负担’问题,并利用分块压缩方法降低计算复杂度。在Kimi Linear 48B大模型上验证,训练效率提升25%,推理延迟增加不到2%。论文引发广泛关注,包括马斯克和AI领域专家Karpathy的高度评价。值得一提的是,论文共同一作之一是17岁高中生陈广宇,他从北京黑客松起步,逐步深入大模型研究,最终加入Kimi团队并参与核心研发。这项成果展示了‘时间-深度对偶性’的应用潜力,为深度学习优化提供了新方向。
镜像现实MirageX
03-17 15:39:50
Attention Residuals
Kimi Linear
陈广宇
分享至
打开微信扫一扫
内容投诉
生成图片
MiniMax与Kimi,隔空交手
10月29日,月之暗面研究员周昕宇在X和知乎上评论MiniMax的M2技术博客,调侃‘Kimi got your back’。次日,月之暗面发布Kimi Linear模型,声称在长上下文任务中性能超越全注意力机制,KV Cache减少75%,吞吐量提升6倍。此前,MiniMax发布的M2回归Full Attention,强调性价比与多场景支持。双方分别代表Efficient Attention和Full Attention两条技术路线的竞争,前者追求主动优化降低成本,后者等待GPU进步解决成本问题。两种路线各有利弊,尚无定论,但均推动行业技术演进。这场技术之争也映射两家公司在中国通用大模型领域的角力。
AI奇点纪元
11-03 09:10:57
Attention机制
Kimi Linear
MiniMax
分享至
打开微信扫一扫
内容投诉
生成图片
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。
AGI探路者
10-31 17:41:14
Kimi Linear
Transformer
线性注意力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序