MLA - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

DeepSeek更新GitHub仓库新模型“MODEL1”曝光

1月21日，DeepSeek在GitHub更新deepseek-ai/FlashMLA仓库，新增一个未公开模型架构标识“MODEL1”，被提及31次。MODEL1是DeepSeek FlashMLA支持的两大核心模型之一，另一为DeepSeek-V3.2。推测MODEL1为高效推理模型，内存占用低于V3.2，适合边缘设备或成本敏感场景，也可能针对16K+长序列优化，适用于文档理解、代码分析等任务。此次更新涉及114个代码文件，涵盖多种格式。（腾讯科技）

原文链接

灵感Phoenix

01-21 11:03:39

DeepSeek

FlashMLA

MODEL1

分享至

打开微信扫一扫

内容投诉

生成图片

智谱新模型也用DeepSeek的MLA，苹果M5就能跑

2026年1月，智谱AI发布开源轻量级大语言模型GLM-4.7-Flash，替代前代GLM-4.5-Flash，API免费开放调用。该模型采用混合专家（MoE）架构，总参数30B，仅激活3B，定位为本地编程与智能体助手，在SWE-bench代码修复测试中得分59.2，性能超越Qwen3-30B和GPT-OSS-20B。模型支持200K上下文窗口，首次引入DeepSeek的MLA架构，深度优化效率，适用于创意写作、翻译等多场景。发布不到12小时，HuggingFace等平台已提供支持，并兼容华为昇腾NPU。开发者实测显示，苹果M5芯片设备可实现43 token/s运行速度。官方API基础版免费，高速版价格低廉，但延迟和吞吐量有待优化。

原文链接

智能视野

01-20 18:20:48

GLM-4.7-Flash

MLA架构

智谱AI

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源周Day1：FlashMLA：大家省，才是真的省

DeepSeek开源周启动，首个项目FlashMLA聚焦于优化可变长度序列的推理服务，特别针对英伟达Hopper GPU设计。FlashMLA在H800 SXM5平台上，内存带宽可达3000GB/s，计算性能达580TFLOPS，已获全球开发者广泛关注，GitHub Star数突破5000。 Fla...

原文链接

AI幻想空间站

02-24 22:35:01

FlashMLA

Hopper GPU

MLA

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源周观察：让所有人都能用起来R1

DeepSeek已成为全球开源圈的领头羊。近日，“开源周”活动首发了FlashMLA，这是专为英伟达Hopper GPU优化的高效多头潜在注意力解码内核。 FlashMLA解决了传统大模型在处理变长序列时资源浪费的问题，通过深度优化Kernel，提升内存带宽利用率和计算效率。在H800 SXM5 G...

原文链接

阿达旻

02-24 20:34:11

DeepSeek

FlashMLA

NVIDIA GPU

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源的FlashMLA有什么优势？

2025年2月21日，DeepSeek宣布启动“Open Source Week”，首推的开源代码库是FlashMLA。FlashMLA是一个专为高性能GPU优化的“加速器”，尤其针对NVIDIA Hopper架构GPU如H800。 FlashMLA设计了一套“快速查找系统”，使AI模型在推理时能更...

原文链接

代码编织者Nexus

02-24 18:33:37

AI加速

FlashMLA

GPU优化

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek-R1秘籍轻松迁移，只需原始数据0.3% | 邱锡鹏团队联合出品

DeepSeek-R1背后的多头潜在注意力机制（MLA）现已能轻松迁移到其他模型，仅需原始数据的0.3%~0.6%。该研究由复旦大学、华东师范大学、上海AI Lab等联合提出，复旦教授邱锡鹏也在作者名单之列。 MHA2MLA方法通过两部分实现高效微调：partial-RoPE和低秩近似。Partia...

原文链接

智慧棱镜

02-24 16:26:25

DeepSeek-R1

MHA2MLA

多头潜在注意力机制

分享至

打开微信扫一扫

内容投诉

生成图片

一文看懂DeepSeek 刚刚开源的FlashMLA，这些细节值得注意

今天，DeepSeek开源项目FlashMLA迅速走红网络，仅数小时便收获超过3.5K Star。FlashMLA是针对Hopper GPU优化的高效MLA（多头潜在注意力）解码内核，支持变长序列处理，现已投入生产。 FlashMLA通过优化MLA解码和分页KV缓存，提高了大语言模型的推理效率，尤其...

原文链接

元界筑梦师

02-24 14:31:04

FlashMLA

Hopper GPU

MLA

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek开源FlashMLA Github瞬间破1000颗星

今日9:30，开源大模型平台DeepSeek开启技术分享周，发布了针对Hopper GPU优化的FlashMLA高效MLA解码内核。该成果刚在GitHub发布，短时间内便获得了超1000个星标。

原文链接

像素宇宙

02-24 12:19:23

DeepSeek

FlashMLA

GitHub

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek突破H800性能上限，FlashMLA重磅开源，算力成本还能降

DeepSeek开源周第一天，推出了降本利器FlashMLA，突破了H800的性能上限。FlashMLA是专为Hopper GPU设计的高效MLA解码内核，针对可变长度序列进行优化，现已投入生产。 MLA由DeepSeek提出，通过低秩联合压缩技术，将多头注意力的键和值矩阵投影到低维空间，显著减少了...

原文链接