2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。
原文链接
本文链接:https://kx.umi6.com/article/27606.html
转载请注明文章出处
相关推荐
换一换
左手Transformer,右手世界模型,我们距离AGI还有多远?
2024-11-21 18:39:56
谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
2024-12-04 22:48:59
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
彩云小梦V3.5上线!首个基于DCFormer架构通用大模型发布
2024-11-13 18:44:50
张亚勤:Transformer五年内会被逐步重构,15-20年内实现AGI | 清华AIR无锡创新中心成立
2024-06-08 15:19:23
谷歌新架构突破Transformer超长上下文瓶颈!Hinton灵魂拷问:后悔Open吗?
2025-12-05 19:46:53
谷歌全网扒1000亿图像文本对,ViT大佬坐镇:数据Scaling潜力依旧
2025-02-13 18:12:26
8 年首次大突破:谷歌祭出 Transformer 杀手,掌门人划出 AGI 死线
2025-12-07 15:34:40
全面超越Transformer!清华蚂蚁纯MLP架构,长短程时序预测大提升
2024-06-12 13:13:44
OpenAI的前世今生
2025-08-27 10:01:51
AI“手指难题”翻车,6 根手指暴露 Transformer 致命缺陷
2025-12-15 22:02:22
大模型玩不好数独?!Transformer作者初创公司公布排行榜:o3 Mini High“变异数独”正确率仅2.9%
2025-05-28 16:36:56
MiniMax与Kimi,隔空交手
2025-11-03 09:10:57
787 文章
659524 浏览
24小时热文
更多
-
2026-06-09 07:06:40 -
2026-06-09 00:54:40 -
2026-06-09 00:53:08