标题:关于 AI Infra 的一切
朱亦博是国内最了解 AI Infra 的人之一,他的职业经历几乎与 AI Infra 的发展并行。
AI Infra 的定义
AI Infra 包括硬件和软件两部分。硬件指 AI 芯片、GPU 和交换机等设备;软件层面可类比云计算,分为三层:
- 最底层类似 IaaS,解决计算、通信和存储问题。
- 中间层类似 PaaS,包含资源调度和管理,MaaS(Model-as-a-Service)归属此层。
- 最上层类似 SaaS,聚焦训练及推理框架的优化。
AI Infra 的发展节点
大模型的兴起让 AI Infra 进入主舞台。过去 Infra 人才多在业务规模扩大后才被需要,而如今大模型对算力和数据的高要求,为 Infra 从业者提供了难得的机会。这类似于搜索引擎兴起时 Google 通过强大 Infra 处理互联网数据的时代。
移动互联网与 AI Infra 的异同
两者目标一致,都是高效整合计算、通信和存储资源,但在硬件和网络需求上差异显著。AI Infra 核心是 GPU,而传统 Infra 核心是 CPU。AI Infra 需更极致地贴合 AI 的特殊需求。
未来从业者方向
未来 AI Infra 的人才可能来自新成长的工程师或传统 Infra 人转型。算法依赖年轻人的创新,而 Infra 更强调积累。从业者应靠近模型或硬件,进行垂直整合,避免仅停留在中间层优化。
Infra 的核心指标
在线服务侧关注模型响应延迟、输出稳定性及成本;训练侧关注 GPU 数据处理能力和效率。Infra 的优化能显著提升模型效果,例如更高的硬件利用率(MFU)可在相同时间内训练更多数据。
第三方 Infra 公司的机会
云厂商和模型方虽占据主导,但第三方公司可通过差异化优势(如与特定硬件深度合作)提供独特价值。未来突破口在于与硬件或模型垂直整合,而非单纯做中间层优化。
Infra 对模型效果的影响
Infra 水平直接影响模型训练效率和效果。例如,优化目标的选择(如 DeepSeek 的推理成本优化)可能成为关键成功因素。当前最重要的指标是模型输出速度(decoding),它决定了线上成本和强化学习效率。
团队协作与组织架构
理想状态下,算法、Infra 和数据团队需协同合作。然而,大厂中 Infra 常被视为支持角色,缺乏影响力。合理的组织架构应让 Infra 人设计模型结构,数据人负责刷分,算法人专注训练范式革新。
开源与国产化趋势
开源模型促进 AI Infra 进步,但也可能导致创新局限。国产芯片在性价比上仍落后于英伟达,但通过针对性优化(如阶跃开源的 Step 3 视觉推理模型),有望提升竞争力。
多模态与未来展望
多模态生成成本仍然较高,但未来一年内有望显著下降。视觉推理模型直接基于图片完成任务,无需文字转换,更具实用性。
建议与总结
对于想进入 AI Infra 的人,建议靠近模型或硬件,主动参与 co-design,并深刻理解计算资源的重要性。正如 Richard Sutton 所言,胜出的永远是能最大化利用计算资源的方法。
.png)

-
2025-08-12 19:23:57
-
2025-08-12 19:23:40
-
2025-08-12 19:22:50