推理成本降至1元/每百万token,浪潮信息突破AI规模化瓶颈
允中 发自 凹非寺
量子位 | 公众号 QbitAI
全球AI产业已从模型性能竞争转向智能体规模化落地的关键阶段,“降本”成为决定AI企业盈利与行业突破的核心。在此背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次降至1元/每百万token,为智能体产业化扫清成本障碍。
浪潮信息首席AI战略官刘军指出,当前的1元/每百万token仅是阶段性胜利。未来,随着token消耗量指数级增长,现有成本仍难支撑AI普惠落地。要让AI成为“水电煤”般的基础资源,token成本需实现数量级下降,这将成为AI企业生存的关键。
回顾互联网发展史,基础设施“提速降费”推动了行业繁荣。如今,AI也处于类似临界点。技术进步促使token单价下降,使企业能够将AI应用于复杂场景,如超长上下文和多步规划。然而,单任务token需求呈指数增长,若成本下降速度跟不上消耗增长,企业将面临更高投入,这正是“杰文斯悖论”在token经济中的体现。
数据表明,token消耗量正快速攀升。字节跳动旗下豆包大模型日均token使用量突破50万亿,较去年增长超10倍;谷歌每月处理token量达1300万亿。当月消耗量达“百万亿token”级别时,每百万token成本下降1美元,可能带来每月1亿美元的成本差异。
阻碍token成本下降的核心在于推理负载与训练负载不同,旧架构导致算力、显存与网络资源难以最优配置。一是算力利用率低,推理阶段MFU仅为5%-10%;二是“存储墙”瓶颈放大,KV Cache增长占用大量显存;三是跨节点通信延迟高,推高总拥有成本(TCO)。
为此,浪潮信息基于全新超扩展架构推出元脑HC1000,采用全对称DirectCom极速架构,支持灵活计算策略,大幅提升资源利用率。该产品通过无损扩展设计和算网协同,推理性能提升1.75倍,单卡MFU最高提升5.7倍,推理成本首次击破1元/每百万token。
刘军强调,未来需推动计算架构根本性革新,从规模导向转向效率导向,探索专用计算架构与算法硬件化创新,实现软硬件深度优化,才能应对token消耗量的指数增长,推动AI真正普惠。
-
2025-12-26 22:02:20 -
2025-12-26 21:02:03 -
2025-12-26 21:00:54