
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
6月17日,MiniMax发布全球首个开源大规模混合架构推理模型M1,创始人闫俊杰称‘大山不是不能翻越’。M1通过闪电注意力机制和强化学习算法CISPO实现高效推理,仅用512块H800三周完成训练。随后4天内,公司连续推出视频生成模型、智能体等多款产品。资本市场方面,MiniMax被曝正考虑港股IPO,此前已积累十几亿美元现金储备,近期完成Pre-IPO融资。公司成立于2022年,专注MoE架构研发,曾将80%算力投入此技术路线。尽管其M1模型未引发轰动,业内对其探索路径评价积极。面对DeepSeek竞争,MiniMax坚持自研底层模型,海外应用则选择接入DeepSeek。
原文链接
标题:华为:让DeepSeek的“专家们”动起来,推理延迟降10%
正文:
要问最近哪个模型最火,混合专家模型(MoE)绝对是榜上提名的那一个。它的巧妙之处在于将不同任务分配给擅长处理的专家网络,提升系统性能。然而,专家网络的负载均衡问题是影响推理性能的关键因素。
在大量任务面前,MoE并非均匀分配...
原文链接
标题:华为+DeepSeek,推理性能创新高!
正文:
部署超大规模MoE这件事,国产芯片的推理性能再创新高了——不仅是“英伟达含量为0”,更是性能全面超越英伟达Hopper架构!
实现这一点的是华为昇腾,具体包含两个产品:
- CloudMatrix 384超节点:部署DeepSeek V3/R1...
原文链接
财联社3月10日报道,字节跳动大模型团队宣布开源一种针对MoE架构的优化技术,可提升训练效率1.7倍,节省成本40%。该技术已在字节跳动的万卡集群中应用,累计节省数百万GPU小时训练算力。
原文链接
2月25日,DeepSeek开源了全球首个面向MoE模型的全栈通信库DeepEP,解决AI算力焦虑问题,GitHub迅速获得1500星。
DeepEP的亮点在于其优化的NVLink技术和RDMA技术。NVLink技术使同一仓库内的GPU传输速率高达每秒158GB,相当于将北京到上海的距离缩短至喝一口...
原文链接
2月25日,DeepSeek在开源活动中发布了首个用于MoE模型训练和推理的EP通信库——DeepEP。该库具备高效全到全通信、支持NVLink和RDMA技术、高吞吐量内核、低延迟内核及FP8数据格式支持等特点。DeepEP专为MoE和EP设计,提供高吞吐量和低延迟的all-to-all GPU内核,支持低精度计算,并兼容组限制门控算法。它还采用了通信与计算重叠方法,优化推理解码速度。要求包括Hopper GPUs、Python 3.8+、CUDA 12.3+及PyTorch 2.1+。详情可访问GitHub:
原文链接
阿里云于1月29日发布了全新超大规模MoE模型通义千问Qwen 2.5-Max。该模型采用超过20万亿token的预训练数据及后训练方案。据阿里云公布的数据,在Arena-Hard、LiveBench等基准测试中,Qwen 2.5-Max的表现优于DeepSeek V3,并在MMLU-Pro等评估中展现出竞争力。此外,在基座模型对比中,Qwen 2.5-Max在多数基准测试中优于DeepSeek V3、Llama-3.1-405B等开源模型。Qwen 2.5-Max尚未开源。
原文链接
钛媒体App报道,猎豹移动旗下猎户星空近日在京发布了自主研发的Orion-MoE 8×7B大模型及AI数据宝AirDS服务。猎豹移动董事长兼CEO傅盛表示,明年将是AI应用繁荣的一年。
猎豹移动通过控股和增资,加大了对猎户星空的投资力度。最新财报显示,2024年第二季度猎豹移动收入增长12.3%,A...
原文链接
腾讯发布最大开源MoE模型,3890亿参数免费可商用,性能超越Llama 3.1。
腾讯推出Hunyuan-Large,该模型拥有3890亿总参数和520亿激活参数,其性能超过了Llama 3.1等开源旗舰模型,并且上下文长度支持达到256k。尽管Hunyuan-Large不是腾讯内部旗舰模型,但其...
原文链接
元象XVERSE发布中国最大开源MoE模型——XVERSE-MoE-A36B,拥有255B参数,激活参数36B,性能媲美100B模型,训练时间缩短30%,推理性能提升100%,降低每token成本。此模型在多项权威评测中超越Skywork-MoE、Mixtral-8x22B及Grok-1-A86B等...
原文链接
加载更多

暂无内容