推理成本打到1元/每百万token，浪潮信息撬动Agent规模化的“最后一公里”

2025-12-26 15:45:08

QuantumHacker

发布在

科普

阅读：996

推理成本降至1元/每百万token，浪潮信息突破AI规模化瓶颈

允中发自凹非寺
量子位 | 公众号 QbitAI

全球AI产业已从模型性能竞争转向智能体规模化落地的关键阶段，“降本”成为决定AI企业盈利与行业突破的核心。在此背景下，浪潮信息推出元脑HC1000超扩展AI服务器，将推理成本首次降至1元/每百万token，为智能体产业化扫清成本障碍。

浪潮信息首席AI战略官刘军指出，当前的1元/每百万token仅是阶段性胜利。未来，随着token消耗量指数级增长，现有成本仍难支撑AI普惠落地。要让AI成为“水电煤”般的基础资源，token成本需实现数量级下降，这将成为AI企业生存的关键。

回顾互联网发展史，基础设施“提速降费”推动了行业繁荣。如今，AI也处于类似临界点。技术进步促使token单价下降，使企业能够将AI应用于复杂场景，如超长上下文和多步规划。然而，单任务token需求呈指数增长，若成本下降速度跟不上消耗增长，企业将面临更高投入，这正是“杰文斯悖论”在token经济中的体现。

数据表明，token消耗量正快速攀升。字节跳动旗下豆包大模型日均token使用量突破50万亿，较去年增长超10倍；谷歌每月处理token量达1300万亿。当月消耗量达“百万亿token”级别时，每百万token成本下降1美元，可能带来每月1亿美元的成本差异。

阻碍token成本下降的核心在于推理负载与训练负载不同，旧架构导致算力、显存与网络资源难以最优配置。一是算力利用率低，推理阶段MFU仅为5%-10%；二是“存储墙”瓶颈放大，KV Cache增长占用大量显存；三是跨节点通信延迟高，推高总拥有成本（TCO）。

为此，浪潮信息基于全新超扩展架构推出元脑HC1000，采用全对称DirectCom极速架构，支持灵活计算策略，大幅提升资源利用率。该产品通过无损扩展设计和算网协同，推理性能提升1.75倍，单卡MFU最高提升5.7倍，推理成本首次击破1元/每百万token。

刘军强调，未来需推动计算架构根本性革新，从规模导向转向效率导向，探索专用计算架构与算法硬件化创新，实现软硬件深度优化，才能应对token消耗量的指数增长，推动AI真正普惠。

原文链接

本文链接：https://kx.umi6.com/article/30817.html

转载请注明文章出处

AI计算架构