2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。
原文链接
本文链接:https://kx.umi6.com/article/27606.html
转载请注明文章出处
相关推荐
换一换
为Token付费是一件很愚蠢的事情,用户应该为智能付费丨RockAI刘凡平@MEET2026
2025-12-14 12:41:54
微软清华改进Transformer:用降噪耳机原理升级注意力,一作在线答疑
2024-11-05 14:35:47
OpenAI的前世今生
2025-08-27 10:01:51
Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
2024-08-14 10:29:52
Mamba一作预告新架构!长文论述Transformer≠最终解法
2025-07-09 14:03:28
AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
2024-10-09 12:26:03
彩云科技DCFormer模型架构发布,效率是Transformer的两倍!
2024-06-07 18:02:52
Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强
2024-10-23 10:38:01
比英伟达快20倍!哈佛辍学生发布大模型芯片 属于AI的“矿机革命”要来了?
2024-06-27 18:29:52
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
有300亿美元也未必“再造GPT-4”?NUS尤洋最新长文:拆穿AI增长瓶颈的真相
2025-12-31 13:17:46
左手Transformer,右手世界模型,我们距离AGI还有多远?
2024-11-21 18:39:56
全球首款 Transformer 专用 AI 芯片 Sohu 登场:每秒可处理 50 万个 tokens,英伟达 H100 的 20 倍
2024-06-26 12:30:19
696 文章
434009 浏览
24小时热文
更多
-
2026-01-23 08:40:41 -
2026-01-23 06:34:26 -
2026-01-23 00:20:44