MoE模型 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

KTransformers入选计算机系统顶会、与主流框架合作，趋境&清华让「异构」成为推理新范式

2025年10月，KTransformers项目论文入选计算机系统顶会SOSP 2025，并与主流推理框架SGLang达成合作。该项目由趋境科技与清华大学KVCache.AI团队联合研发，是一款高性能异构推理框架，专注于CPU+GPU协同执行，显著降低大模型推理的硬件门槛。其核心创新包括底层算子优化、NUMA感知张量并行和专家延迟机制（Expert Deferral），使单机环境可高效运行超大规模模型如DeepSeek-V3-671B。此次与SGLang的合作实现了全GPU推理与异构推理的融合，为开发者提供更灵活的硬件选择。目前，KTransformers已在GitHub获得15.2K Star，被多个主流大模型及厂商推荐使用，致力于推动算力普惠与AI基础设施的普及。

原文链接

数码游侠

10-23 10:01:08

KTransformers

MoE模型

异构推理

分享至

打开微信扫一扫

内容投诉

生成图片

“狠人”闫俊杰，闯关IPO

6月17日，MiniMax发布全球首个开源大规模混合架构推理模型M1，创始人闫俊杰称‘大山不是不能翻越’。M1通过闪电注意力机制和强化学习算法CISPO实现高效推理，仅用512块H800三周完成训练。随后4天内，公司连续推出视频生成模型、智能体等多款产品。资本市场方面，MiniMax被曝正考虑港股IPO，此前已积累十几亿美元现金储备，近期完成Pre-IPO融资。公司成立于2022年，专注MoE架构研发，曾将80%算力投入此技术路线。尽管其M1模型未引发轰动，业内对其探索路径评价积极。面对DeepSeek竞争，MiniMax坚持自研底层模型，海外应用则选择接入DeepSeek。

原文链接

未来编码者

07-11 13:37:48

MiniMax

MoE模型

闫俊杰

分享至

打开微信扫一扫

内容投诉

生成图片

华为：让DeepSeek的“专家们”动起来，推理延迟降10%！

标题：华为：让DeepSeek的“专家们”动起来，推理延迟降10% 正文：要问最近哪个模型最火，混合专家模型（MoE）绝对是榜上提名的那一个。它的巧妙之处在于将不同任务分配给擅长处理的专家网络，提升系统性能。然而，专家网络的负载均衡问题是影响推理性能的关键因素。在大量任务面前，MoE并非均匀分配...

原文链接

代码编织者Nexus

05-20 14:38:41

MoE模型

OmniPlacement

负载均衡

分享至

打开微信扫一扫

内容投诉

生成图片

华为+DeepSeek，推理性能创新高！技术报告也公布出来了

标题：华为+DeepSeek，推理性能创新高！正文：部署超大规模MoE这件事，国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”，更是性能全面超越英伟达Hopper架构！实现这一点的是华为昇腾，具体包含两个产品： - CloudMatrix 384超节点：部署DeepSeek V3/R1...

原文链接

GhostPilot

05-19 14:16:37

MoE模型

华为昇腾

推理性能

分享至

打开微信扫一扫

内容投诉

生成图片

字节对MoE模型训练成本再砍一刀成本可节省40%

财联社3月10日报道，字节跳动大模型团队宣布开源一种针对MoE架构的优化技术，可提升训练效率1.7倍，节省成本40%。该技术已在字节跳动的万卡集群中应用，累计节省数百万GPU小时训练算力。

原文链接

AI思维矩阵

03-10 17:52:30

MoE模型

字节跳动

训练成本

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek扔的第二枚开源王炸到底是什么？

2月25日，DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP，解决AI算力焦虑问题，GitHub迅速获得1500星。 DeepEP的亮点在于其优化的NVLink技术和RDMA技术。NVLink技术使同一仓库内的GPU传输速率高达每秒158GB，相当于将北京到上海的距离缩短至喝一口...

原文链接

数字墨迹

02-25 20:07:11

DeepEP

MoE模型

通信库

分享至

打开微信扫一扫

内容投诉

生成图片

DeepSeek 开源进度 2/5：首个用于 MoE 模型训练和推理的 EP 通信库 DeepEP

2月25日，DeepSeek在开源活动中发布了首个用于MoE模型训练和推理的EP通信库——DeepEP。该库具备高效全到全通信、支持NVLink和RDMA技术、高吞吐量内核、低延迟内核及FP8数据格式支持等特点。DeepEP专为MoE和EP设计，提供高吞吐量和低延迟的all-to-all GPU内核，支持低精度计算，并兼容组限制门控算法。它还采用了通信与计算重叠方法，优化推理解码速度。要求包括Hopper GPUs、Python 3.8+、CUDA 12.3+及PyTorch 2.1+。详情可访问GitHub:

原文链接

跨界思维

02-25 11:53:00

DeepEP

MoE模型

通信库

分享至

打开微信扫一扫

内容投诉

生成图片

通义千问 Qwen 2.5-Max 超大规模 MoE 模型号称优于 Deepseek V3 等竞品，暂未开源

阿里云于1月29日发布了全新超大规模MoE模型通义千问Qwen 2.5-Max。该模型采用超过20万亿token的预训练数据及后训练方案。据阿里云公布的数据，在Arena-Hard、LiveBench等基准测试中，Qwen 2.5-Max的表现优于DeepSeek V3，并在MMLU-Pro等评估中展现出竞争力。此外，在基座模型对比中，Qwen 2.5-Max在多数基准测试中优于DeepSeek V3、Llama-3.1-405B等开源模型。Qwen 2.5-Max尚未开源。

原文链接

E-Poet

01-29 03:58:28

DeepSeek V3

MoE模型

通义千问 Qwen 2.5-Max

分享至

打开微信扫一扫

内容投诉

生成图片

猎豹移动发布全新AI数据宝和MoE模型，傅盛：明年将是AI应用繁荣的一年

钛媒体App报道，猎豹移动旗下猎户星空近日在京发布了自主研发的Orion-MoE 8×7B大模型及AI数据宝AirDS服务。猎豹移动董事长兼CEO傅盛表示，明年将是AI应用繁荣的一年。猎豹移动通过控股和增资，加大了对猎户星空的投资力度。最新财报显示，2024年第二季度猎豹移动收入增长12.3%，A...

原文链接

QuantumHacker

11-28 14:31:52

AI数据宝

MoE模型

猎豹移动

分享至

打开微信扫一扫

内容投诉

生成图片

腾讯发最大开源MoE模型，3890亿参数免费可商用，跑分超Llama3.1

腾讯发布最大开源MoE模型，3890亿参数免费可商用，性能超越Llama 3.1。腾讯推出Hunyuan-Large，该模型拥有3890亿总参数和520亿激活参数，其性能超过了Llama 3.1等开源旗舰模型，并且上下文长度支持达到256k。尽管Hunyuan-Large不是腾讯内部旗舰模型，但其...

原文链接