1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
正文:2025年12月,OpenAI开源新模型,采用Circuit Sparsity技术,99.9%权重为零,仅保留关键连接,提升模型可解释性。该方法通过稀疏性约束,将模型计算过程可视化为电路图,避免传统稠密Transformer的黑箱问题,解决AI决策不透明难题。相比主流MoE模型,Circuit Sparsity追求原生稀疏性,减少信息干扰,但算力成本高,训练和推理效率低。团队提出两种优化方向:从密集模型提取稀疏电路或改进训练机制。未来计划扩展至更大模型,探索复杂推理电路。此研究为AI可解释性迈出重要一步。参考链接:[1] [2]
跨界思维
12-14 14:46:00
分享至
打开微信扫一扫
内容投诉
生成图片
MoE那么大,几段代码就能稳稳推理 | 开源
MoE模型推理,几段代码就能稳稳搞定 | 开源 混合专家网络(MoE)已成为当前大模型主流架构之一。以盘古Pro MoE为例,其基于MoGE架构构建,总参数量达720亿,激活参数量160亿,专为昇腾硬件优化,在性能与效率上表现优异。 华为最新开源项目Omni-Infer,实现了对超大规模MoE模型推...
LunarCoder
07-02 18:09:04
分享至
打开微信扫一扫
内容投诉
生成图片
训练MoE足足提速70%!华为只用了3招
标题:训练MoE提速70%!华为的三大优化策略 正文: Scaling Law推动下,MoE成为各大模型厂商扩展能力的关键工具。然而,MoE在提升参数规模的同时,也带来了训练效率低下的问题,甚至一半以上的时间浪费在“等待”上。 华为推出了名为Adaptive Pipe & EDPB的...
智慧轨迹
06-03 15:58:16
分享至
打开微信扫一扫
内容投诉
生成图片
每2秒吃透一道高数大题!华为终于揭秘准万亿MoE昇腾训练系统全流程
标题:每2秒破解一道高数难题!华为揭秘准万亿MoE昇腾训练系统全流程 正文: 现在,请大家数一下“1”、“2”。 短短2秒,一个准万亿MoE大模型已经学会解答一道高等数学难题! 更令人惊叹的是,这套系统全流程基于国产技术,不依赖GPU。 这就是华为通过“昇腾+Pangu Ultra Mo...
智能视野
05-30 16:54:34
分享至
打开微信扫一扫
内容投诉
生成图片
一个「always」站在大模型技术C位的传奇男子
标题:一个「always」站在大模型技术C位的传奇男子 正文: 怎么老是你??? 这是最近网友不断对着Transformer八子之一的Noam Shazeer(我们称他为沙哥)发出的灵魂疑问。尤其是在Meta FAIR研究员朱泽园分享《Physics of Language Models》项...
量子思考者
05-10 12:04:35
分享至
打开微信扫一扫
内容投诉
生成图片
已节省数百万GPU小时!字节再砍MoE训练成本,核心代码全开源
标题:字节开源COMET,大幅降低MoE训练成本 正文: 字节开源了名为COMET的MoE优化技术,已应用于其万卡训练集群,累计节省数百万GPU小时。COMET可将MoE模型训练成本降低40%。 COMET针对MoE模型在分布式训练中的通信开销问题,通过细粒度计算-通信折叠技术和动态资源分配,提升了训练效率。在大规模MoE模型的单个执行层上,COMET可提速1.96倍,端到端平均提速1.71倍。 COMET通过共享张量依赖解析和自适应负载分配,解决了计算与通信的粒度不匹配问题。它还支持业界主流大模型,无需复杂改动即可部署。COMET在多个大规模MoE模型中表现出色,端到端性能提升31.8%-44.4%。 目前,COMET核心代码已开源,包括约1.2万行C++和CUDA代码,以及2千行Python代码,并提供Python API。
WisdomTrail
03-11 16:36:46
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
标题:DeepSeek前实习生优化MoE,迭代机制减少42%内存需求 DeepSeek前实习生优化MoE,迭代机制减少42%内存需求 西风 发自 凹非寺 量子位 | 公众号 QbitAI DeepSeek推出名为CoE(Chain-of-Experts)的新方法,内存需求减少17.6%-42...
量子思考者
03-08 11:43:54
分享至
打开微信扫一扫
内容投诉
生成图片
榨干每一块GPU,DeepSeek开源第二天,送上降本增效神器
标题:榨干每块GPU,DeepSeek开源第二天带来降本增效神器 DeepSeek开源周进入第二天,持续推动AI大模型基础建设。今天,DeepSeek发布了DeepEP,一款专为混合专家系统(MoE)和专家并行(EP)设计的通信库。 DeepEP的设计灵感源自DeepSeek-V3论文中的群组限制门...
跨界思维
02-25 16:02:59
分享至
打开微信扫一扫
内容投诉
生成图片
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
DeepSeek开源周再添新成员,推出专为MoE和EP设计的通信库DeepEP。首个用于MoE模型训练和推理的开源EP通信库,提供高吞吐量和低延迟的all-to-all GPU内核,并支持FP8运算。开源协议采用宽松的MIT许可证。 DeepEP在GitHub上线后反响热烈,用户纷纷点赞。该库在性能...
AI奇点纪元
02-25 11:49:28
分享至
打开微信扫一扫
内容投诉
生成图片
豆包提出全新稀疏模型架构 UltraMem,推理成本较 MoE 最高可降 83%
2月12日,字节跳动豆包大模型团队宣布提出全新稀疏模型架构UltraMem。该架构解决了MoE在推理时高额访存问题,速度提升2-6倍,成本最高可降低83%。UltraMem在同等计算资源下实现了业界领先的推理速度和模型性能,且在参数和激活条件下超越了MoE。该架构在Transformer架构下表现出优异的Scaling特性,为构建大规模模型开辟新路径。
超频思维站
02-12 13:32:45
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序