1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

2月18日,DeepSeek和月之暗面几乎同时发布了关于改进Transformer架构注意力机制的最新论文。DeepSeek提出的NSA架构在处理长上下文时速度提升至11.6倍,而月之暗面的MoBA架构在1M token测试中比全注意力快6.5倍。两家公司创始人杨植麟和梁文锋分别参与了这两项研究,显示出其对公司技术路线的重要影响。此次‘撞车’现象不仅展示了技术发展的相似趋势,也为理解强化学习和高效长文本处理提供了新视角。

原文链接
本文链接:https://kx.umi6.com/article/13760.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Kimi 迄今能力最强开源思考模型,月之暗面 Kimi K2 Thinking 发布
2025-11-07 00:21:43
DeepSeek删豆包冲上热搜,大模型世子之争演都不演了
2025-08-21 13:31:42
黄仁勋:DeepSeek、阿里、腾讯推动AI创新
2025-07-16 16:08:35
黄仁勋谈中国AI创新:以令人难以置信的速度前进
2025-07-16 17:12:34
DeepSeek“点燃”国产芯片 FP8能否引领行业新标准?
2025-08-24 11:14:54
DeepSeek降本秘诀曝光:2招极致压榨推理部署,算力全留给内部
2025-07-04 15:46:17
六大AI拿1万美元真实交易:DeepSeek最能赚,GPT-5亏麻了,AI能让周杰伦少亏上亿
2025-10-20 17:12:32
deepseek当选网易有道词典2025年度词汇,全年搜索量超867万次
2025-12-01 18:22:41
Transformer作者:DeepSeek才有搞头,OpenAI指望不上了
2025-09-12 11:09:05
DeepSeek成了硅谷最大的“不能说的秘密”
2025-09-23 17:20:46
月之暗面回应 Kimi K2 模型 API 速度慢:正在优化推理效率,也在加卡加机器
2025-07-15 20:49:00
DeepSeek 通知线上模型版本升级至 V3.1,上下文长度拓展至 128k
2025-08-19 21:05:45
Meta 重金抢人,明星云集就能复制 DeepSeek 的成功吗?
2025-07-17 17:30:33
24小时热文
更多
扫一扫体验小程序