1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍,而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究,显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势,也为理解强化学习和高效长文本处理提供了新视角。

原文链接
本文链接:https://kx.umi6.com/article/13760.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek更新GitHub仓库 新模型“MODEL1”曝光
2026-01-21 11:03:39
梁文锋代表DeepSeek,他代表梁文锋
2025-11-16 12:31:32
DeepSeek昨天悄悄扔的炸弹,今天爆了
2025-08-22 17:51:00
DeepSeek 线上模型升级至 V3.1-Terminus 版本,改进语言一致性及 Agent 能力
2025-09-22 21:02:17
DeepSeek大量招人,该梁文锋上场了
2026-01-16 15:41:13
没有商业模式,是DeepSeek最坚固的「护城河」
2026-01-21 14:10:41
月之暗面将完成数亿美元融资
2025-10-24 10:36:59
DeepSeek真的不行了吗
2025-07-29 19:35:17
AI实盘操作,DeepSeek暴赚,Gemini崩盘,网友:专业对口就是不一样
2025-10-20 21:13:47
DeepSeek 声明:防范冒用“深度求索”名义实施诈骗
2025-09-18 12:52:40
DeepSeek下一代技术提前曝光,梁文锋署名论文获ACL2025最佳论文奖
2025-07-31 09:00:51
别太相信DeepSeek
2025-08-14 18:02:41
月之暗面 Kimi 创始人杨植麟:中国技术不仅要好用还要参与制定规则,未来大模型要推出到 K100
2026-01-12 09:22:11
24小时热文
更多
扫一扫体验小程序