2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。
原文链接
            
                本文链接:https://kx.umi6.com/article/27606.html
              
              转载请注明文章出处
            相关推荐
            .png) 
              换一换
            GPT-5与Transformer共同发明人Lukasz Kaiser重磅加盟,2025 全球机器学习技术大会全日程官宣!
              2025-09-18 16:55:56
            那个要挑战GPT的00后清华男孩
              2024-09-20 11:49:07
            Falcon Mamba 7B 开源模型登顶:换掉 Transformer,任意长序列都能处理
              2024-08-14 10:29:52
            132年未解开的李雅普诺夫函数谜题,被AI攻克了?
              2024-10-20 20:02:17
            拯救Transformer推理能力,DeepMind新研究TransNAR:给模型嵌入“算法推理大脑”
              2024-06-17 17:06:21
            Transformer能否推理引争议,DeepMind连夜更新论文开源数据集:Transformer真的很强
              2024-10-23 10:38:01
            谷歌ViT核心骨干集体投奔OpenAI:他们为Sora打下基础
              2024-12-04 22:48:59
            Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
              2025-10-31 17:41:14
            谷歌 AI 掌门人 Jeff Dean 对话 Transformer 作者:AI 提速 300%,1000 万倍工程师要来了
              2025-02-22 18:43:08
            全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
              2024-06-26 16:11:57
            Mamba一作预告新架构!长文论述Transformer≠最终解法
              2025-07-09 14:03:28
            多亏Transformer,Mamba更强了!仅用1%计算量达新SOTA
              2024-08-22 17:19:58
            Transformer“贡献最大”作者,重返谷歌出任Gemini联合技术主管
              2024-08-23 12:33:25
            603 文章
      
      272910 浏览
    
      24小时热文
    
    更多
         
    - 
        
         2025-10-31 23:58:47 2025-10-31 23:58:47
- 
        
         2025-10-31 23:56:43 2025-10-31 23:56:43
- 
        
         2025-10-31 22:56:32 2025-10-31 22:56:32
.png) 
      
       
       
       
               
                 
                   
              .png) 
               
     
     
  