
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
2月13日,字节跳动豆包大模型Foundation团队宣布推出UltraMem稀疏模型架构。该架构通过计算与参数分离,解决了推理过程中的访存问题。UltraMem相比传统MoE架构,推理速度提升2至6倍,成本降低最多83%。实验显示,在2000万value的训练规模下,UltraMem展现顶级性能,为大规模模型发展铺平道路。
原文链接
今日,字节跳动豆包大模型团队提出全新稀疏模型架构UltraMem,解决MoE推理时高额访存问题,提升推理速度2-6倍,成本降低83%。当前,国内外大模型竞争激烈。豆包在AI基础层和应用层全面布局,持续迭代。近期,豆包发布视频生成模型VideoWorld,无需依赖语言模型。2月12日,豆包概念股走高,抖音豆包指数2月涨幅超15%。然而,与强劲对手DeepSeek的竞争才刚开始,后者已在部分字节跳动产品中接入。
原文链接
2月12日,字节跳动豆包大模型团队提出全新稀疏模型架构UltraMem,解决MoE架构下的高额访存问题,推理速度提升2-6倍,成本降低83%。当前,国内外大模型竞争激烈,豆包在AI基础层和应用层全面布局。UltraMem在参数和激活条件相同情况下,模型效果优于MoE。然而,豆包面临来自DeepSeek的竞争压力,后者已超越豆包的日活跃用户数,日活突破4000万。豆包团队近日发布视频生成实验模型“VideoWorld”,无需依赖语言模型即可认知世界。豆包概念股2月累计涨幅超15%,个股博彦科技涨停。DeepSeek的低成本高性能正改变公司模型选择策略,华为、百度等公司已接入。豆包团队内部讨论是否接入DeepSeek,以应对市场竞争。
原文链接
字节跳动豆包大模型团队提出新稀疏模型架构UltraMem,推理速度提升2-6倍,成本降低最多83%,已获ICLR 2025接收。UltraMem解决了传统MoE和PKM架构的局限,保持了模型效果,适用于多种规模模型。该架构有望推动AI技术在边缘计算和移动设备上的广泛应用,提升智能助手等AI应用的响应速度和用户体验。
原文链接
字节跳动豆包大模型团队近期提出UltraMem稀疏模型架构,有效解决MoE推理时的访存问题,推理速度提升2-6倍,成本最高降低83%。该架构在保证模型效果的同时提高了推理效率。实验显示,UltraMem在大规模模型中表现出色,为构建数十亿规模模型提供了新路径。该研究已被ICLR 2025接收。
原文链接
2月12日,字节跳动豆包大模型团队宣布提出全新稀疏模型架构UltraMem。该架构解决了MoE在推理时高额访存问题,速度提升2-6倍,成本最高可降低83%。UltraMem在同等计算资源下实现了业界领先的推理速度和模型性能,且在参数和激活条件下超越了MoE。该架构在Transformer架构下表现出优异的Scaling特性,为构建大规模模型开辟新路径。
原文链接
标题:推理成本降低83%,字节最新大模型架构入围ICLR 2025
字节推出的新架构UltraMem,将推理成本大幅降低83%,相比MoE架构,推理速度提升2-6倍。UltraMem有效解决了MoE和PKM架构的局限性。
MoE在推理时激活全部专家,导致访存激增,延迟增加;PKM虽减少访存开销,但效果不佳且扩展能力有限。UltraMem模型在2000万个value下,实现了行业领先的推理速度和模型性能。
UltraMem通过优化模型结构、价值检索方式和隐式扩展稀疏参数,提高了访存效率和模型效果。实验显示,UltraMem在不同参数规模下均表现出色,且推理时间几乎不变。
该研究成果已被ICLR 2025接收,为构建更大规模的大模型提供了新路径。
原文链接
加载更多

暂无内容