标题:对话|从背景到技术储备:深入解析建“十万卡集群”的必要性
前不久,马斯克旗下的xAI仅用122天就建成十万卡集群,凸显算力集群对AI的重要性。坊间流传:服务器集群规模越大,人工智能的表现越出色。
全球科技巨头纷纷投入巨资建设高性能AI计算集群。谷歌推出AI Platform,利用Gemini模型大幅提升多模态数据处理能力。微软的Azure AI Compute Cluster整合最新AI技术,提供从数据处理到模型训练的全面支持。
百度作为国内最早推出大模型的企业之一,展示了强大的创新能力。11月6日,在百度智能云举办的媒体沙龙中,百度杰出系统架构师、AI计算部负责人王雁鹏分享了“十万卡集群”的技术创新及对AI行业的推动作用。
以下是媒体与嘉宾的对谈实录:
Q:百舸的客户群有哪些?重点行业是否有成功案例?
A:客户分为两类:一类是需要万卡规模的大模型初创企业,对快速建设和成本控制要求高;另一类是互联网客户,需求规模在千卡到5000卡之间,如教育行业公司。这些客户主要需求是利用自有数据进行后期训练,以适应各种场景和优化,构建数据飞轮。目前,训练需求仍是主要业务,推理需求较少。预计今年或明年,推理和小规模微调需求将增加,但总体资源需求仍低于头部客户。
Q:客户的主要需求和痛点是什么?如何解决?
A:客户需求共通之处如下: 1. 基础设施:需要强大的网络硬件互联架构,我们提供更好的解决方案。 2. 系统稳定性:帮助提高系统可靠性和有效训练时间。 3. 加速框架:优化并行策略,提升计算速度。 4. 资源利用率:通过任务混合部署,确保资源高效利用。
Q:跨地域网络问题的实际效果如何?
A:我们能在云上两个机房同时部署计算任务,客户使用时无差异。即使使用5000卡规模,也能在不同地点分配资源,使用体验一致。
Q:如何确保不同需求的混合调度效率?
A:通过混合集群实现不同特征的工作负载的混合。例如,推理任务有波峰波谷,训练任务需要固定数量的计算卡。我们提供灵活的队列机制和优先级策略,动态调整资源分配,提高利用率。此外,框架能自动重新分配并行策略,确保任务连续性和有效性。
Q:关于Checkpoint环节,如何平衡效果和成本?
A:最初Checkpoint策略是隔段时间创建,出现故障时浪费较多时间。改进为异步Checkpoint,训练不中断,缩短Checkpoint时间。进一步引入触发式Checkpoint,仅在故障时创建,有效减少数据丢失风险,提高效率。
-
2026-01-10 17:27:50 -
2026-01-10 17:26:44 -
2026-01-10 17:24:38