综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
1月21日,DeepSeek在GitHub更新deepseek-ai/FlashMLA仓库,新增一个未公开模型架构标识“MODEL1”,被提及31次。MODEL1是DeepSeek FlashMLA支持的两大核心模型之一,另一为DeepSeek-V3.2。推测MODEL1为高效推理模型,内存占用低于V3.2,适合边缘设备或成本敏感场景,也可能针对16K+长序列优化,适用于文档理解、代码分析等任务。此次更新涉及114个代码文件,涵盖多种格式。(腾讯科技)
原文链接
2026年1月,智谱AI发布开源轻量级大语言模型GLM-4.7-Flash,替代前代GLM-4.5-Flash,API免费开放调用。该模型采用混合专家(MoE)架构,总参数30B,仅激活3B,定位为本地编程与智能体助手,在SWE-bench代码修复测试中得分59.2,性能超越Qwen3-30B和GPT-OSS-20B。模型支持200K上下文窗口,首次引入DeepSeek的MLA架构,深度优化效率,适用于创意写作、翻译等多场景。发布不到12小时,HuggingFace等平台已提供支持,并兼容华为昇腾NPU。开发者实测显示,苹果M5芯片设备可实现43 token/s运行速度。官方API基础版免费,高速版价格低廉,但延迟和吞吐量有待优化。
原文链接
DeepSeek开源周启动,首个项目FlashMLA聚焦于优化可变长度序列的推理服务,特别针对英伟达Hopper GPU设计。FlashMLA在H800 SXM5平台上,内存带宽可达3000GB/s,计算性能达580TFLOPS,已获全球开发者广泛关注,GitHub Star数突破5000。
Fla...
原文链接
DeepSeek已成为全球开源圈的领头羊。近日,“开源周”活动首发了FlashMLA,这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。
FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题,通过深度优化Kernel,提升内存带宽利用率和计算效率。在H800 SXM5 G...
原文链接
2025年2月21日,DeepSeek宣布启动“Open Source Week”,首推的开源代码库是FlashMLA。FlashMLA是一个专为高性能GPU优化的“加速器”,尤其针对NVIDIA Hopper架构GPU如H800。
FlashMLA设计了一套“快速查找系统”,使AI模型在推理时能更...
原文链接
DeepSeek-R1背后的多头潜在注意力机制(MLA)现已能轻松迁移到其他模型,仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出,复旦教授邱锡鹏也在作者名单之列。
MHA2MLA方法通过两部分实现高效微调:partial-RoPE和低秩近似。Partia...
原文链接
今天,DeepSeek开源项目FlashMLA迅速走红网络,仅数小时便收获超过3.5K Star。FlashMLA是针对Hopper GPU优化的高效MLA(多头潜在注意力)解码内核,支持变长序列处理,现已投入生产。
FlashMLA通过优化MLA解码和分页KV缓存,提高了大语言模型的推理效率,尤其...
原文链接
今日9:30,开源大模型平台DeepSeek开启技术分享周,发布了针对Hopper GPU优化的FlashMLA高效MLA解码内核。该成果刚在GitHub发布,短时间内便获得了超1000个星标。
原文链接
DeepSeek开源周第一天,推出了降本利器FlashMLA,突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核,针对可变长度序列进行优化,现已投入生产。
MLA由DeepSeek提出,通过低秩联合压缩技术,将多头注意力的键和值矩阵投影到低维空间,显著减少了...
原文链接
财联社2月24日电,DeepSeek宣布启动‘开源周’。首个开源项目是针对Hopper GPU优化的Flash MLA,这是一种高效的MLA解码内核,特别适用于可变长度序列,目前该代码库已投入生产。
原文链接
加载更多
暂无内容