1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

推理成本降至1元/每百万token,浪潮信息突破AI规模化瓶颈

允中 发自 凹非寺
量子位 | 公众号 QbitAI

全球AI产业已从模型性能竞争转向智能体规模化落地的关键阶段,“降本”成为决定AI企业盈利与行业突破的核心。在此背景下,浪潮信息推出元脑HC1000超扩展AI服务器,将推理成本首次降至1元/每百万token,为智能体产业化扫清成本障碍。

浪潮信息首席AI战略官刘军指出,当前的1元/每百万token仅是阶段性胜利。未来,随着token消耗量指数级增长,现有成本仍难支撑AI普惠落地。要让AI成为“水电煤”般的基础资源,token成本需实现数量级下降,这将成为AI企业生存的关键。

回顾互联网发展史,基础设施“提速降费”推动了行业繁荣。如今,AI也处于类似临界点。技术进步促使token单价下降,使企业能够将AI应用于复杂场景,如超长上下文和多步规划。然而,单任务token需求呈指数增长,若成本下降速度跟不上消耗增长,企业将面临更高投入,这正是“杰文斯悖论”在token经济中的体现。

数据表明,token消耗量正快速攀升。字节跳动旗下豆包大模型日均token使用量突破50万亿,较去年增长超10倍;谷歌每月处理token量达1300万亿。当月消耗量达“百万亿token”级别时,每百万token成本下降1美元,可能带来每月1亿美元的成本差异。

阻碍token成本下降的核心在于推理负载与训练负载不同,旧架构导致算力、显存与网络资源难以最优配置。一是算力利用率低,推理阶段MFU仅为5%-10%;二是“存储墙”瓶颈放大,KV Cache增长占用大量显存;三是跨节点通信延迟高,推高总拥有成本(TCO)。

为此,浪潮信息基于全新超扩展架构推出元脑HC1000,采用全对称DirectCom极速架构,支持灵活计算策略,大幅提升资源利用率。该产品通过无损扩展设计和算网协同,推理性能提升1.75倍,单卡MFU最高提升5.7倍,推理成本首次击破1元/每百万token。

刘军强调,未来需推动计算架构根本性革新,从规模导向转向效率导向,探索专用计算架构与算法硬件化创新,实现软硬件深度优化,才能应对token消耗量的指数增长,推动AI真正普惠。

原文链接
本文链接:https://kx.umi6.com/article/30817.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
DeepSeek 突围奥秘曝光:一招 MLA 让全世界抄作业,150 + 天才集结,开出千万年薪
2025-02-01 15:24:17
模型推理成本下降最高99%!百川智能发布一站式大模型商业化解决方案
2024-10-31 15:55:01
字节豆包团队推出稀疏模型架构UltraMem:推理成本可降83%
2025-02-13 20:17:10
字节豆包大模型团队提出稀疏模型架构 推理成本最高可降低83%
2025-02-12 13:34:52
李飞飞实验室2025 AI报告出炉:AI推理成本降低至1/280
2025-04-08 23:18:28
美国AI春晚,一盆凉水浇在Agent身上
2025-12-10 16:57:11
Flash Attention作者最新播客:英伟达GPU统治三年内将终结
2025-09-29 15:09:28
对话汪华:现在的大模型,还是支撑不了大体量的免费商业模式
2024-08-15 11:30:06
推理成本比MoE直降83%!字节最新大模型架构入围ICLR 2025
2025-02-12 12:26:20
推理成本骤降75%!gpt-oss用新数据类型实现4倍推理速度,80GB显卡能跑1200亿参数大模型
2025-08-11 16:04:21
2025人工智能计算大会观察:token成本成AI应用规模化瓶颈 行业寻求算力“破局”
2025-09-27 14:41:56
OpenAI到底亏了多少钱?
2024-08-05 15:55:09
直指端侧痛点 豆包向推理算力又“砍了一刀”:新模型架构最高降本83%
2025-02-12 14:35:40
24小时热文
更多
扫一扫体验小程序