标题:推理成本降低83%,字节最新大模型架构入围ICLR 2025
字节推出的新架构UltraMem,将推理成本大幅降低83%,相比MoE架构,推理速度提升2-6倍。UltraMem有效解决了MoE和PKM架构的局限性。
MoE在推理时激活全部专家,导致访存激增,延迟增加;PKM虽减少访存开销,但效果不佳且扩展能力有限。UltraMem模型在2000万个value下,实现了行业领先的推理速度和模型性能。
UltraMem通过优化模型结构、价值检索方式和隐式扩展稀疏参数,提高了访存效率和模型效果。实验显示,UltraMem在不同参数规模下均表现出色,且推理时间几乎不变。
该研究成果已被ICLR 2025接收,为构建更大规模的大模型提供了新路径。
原文链接
本文链接:https://kx.umi6.com/article/13193.html
转载请注明文章出处
相关推荐
换一换
DeepSeek前实习生魔改MoE,用迭代机制把内存需求砍了42%,团队:“免费午餐”优化方法
2025-03-08 11:43:54
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
2025-09-29 15:09:28
腾讯推出 Hunyuan-Large 大模型:389B 总参数,业界已开源基于 Transformer 的最大 MoE 模型
2024-11-05 17:04:28
OpenAI突然开源新模型!99.9%的权重是0,新稀疏性方法代替MoE
2025-12-14 14:46:00
DeepSeek开源第二弹,为MoE和EP量身定制的通信库!暂和英伟达显卡绑定
2025-02-25 11:49:28
字节豆包大模型团队提出稀疏模型架构 推理成本最高可降低83%
2025-02-12 13:34:52
字节跳动最新思考模型将于4月17日供用户体验 单位推理成本相比DeepSeek R1降低50%
2025-04-14 12:33:19
训练MoE足足提速70%!华为只用了3招
2025-06-03 15:58:16
豆包又把算力成本“打了下来” 但压力才刚刚开始
2025-02-12 19:41:14
美国AI春晚,一盆凉水浇在Agent身上
2025-12-10 16:57:11
字节豆包大模型团队提出稀疏模型架构 推理成本最高可降低83%
2025-02-12 13:34:52
模型推理成本下降最高99%!百川智能发布一站式大模型商业化解决方案
2024-10-31 15:55:01
702 文章
586349 浏览
24小时热文
更多
-
2026-04-24 20:31:56 -
2026-04-24 20:29:51 -
2026-04-24 19:29:38