1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2025年10月,月之暗面开源全新Kimi Linear架构,首次在相同训练条件下超越传统全注意力模型。该架构通过创新的Kimi Delta Attention(KDA)机制,在长上下文任务中减少75%的KV缓存需求,推理速度提升6倍,同时保持高精度。KDA引入细粒度遗忘门控与改进的增量学习规则,确保超长序列中的稳定性和泛化能力。模型采用3:1混合层设计,结合工程优化,无缝兼容现有Transformer系统。实验表明,Kimi Linear在多项基准测试中全面领先,并在数学推理、代码生成等任务中表现优异。这一突破或预示AI架构正迈向多元创新时代。技术报告已发布于Hugging Face平台。

原文链接
本文链接:https://kx.umi6.com/article/27606.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
2025-10-31 17:41:14
苹果AI选Mamba:Agent任务比Transformer更好
2025-10-21 14:27:27
速度秒杀GPT们10倍,国外的DeepSeek时刻来了?
2025-03-14 08:00:03
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
Transformer亲爹痛斥:当前AI陷死胡同,微调纯属浪费时间!
2026-01-20 09:46:08
AI怎样模仿人类大脑的注意力机制?
2025-05-17 11:04:36
5090跑《黑神话》飙到200+帧,英伟达DLSS也用上Transformer了
2025-01-17 17:20:30
比英伟达快20倍!哈佛辍学生发布大模型芯片 属于AI的“矿机革命”要来了?
2024-06-27 18:29:52
一位AI从业者的十年
2024-12-05 14:02:03
最火AI角色扮演流量已达谷歌搜索20%!每秒处理2万推理请求,Transformer作者公开优化秘诀
2024-06-21 15:42:20
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
o1方法性能无上限!姚班马腾宇等数学证明:推理token够多,就能解决任意问题
2024-09-17 14:52:32
24小时热文
更多
扫一扫体验小程序