对话｜从背景到技术储备：深入解析建“十万卡集群”的必要性

2024-11-25 19:16:59

超频思维站

发布在

科普

阅读：394

标题：对话｜从背景到技术储备：深入解析建“十万卡集群”的必要性

前不久，马斯克旗下的xAI仅用122天就建成十万卡集群，凸显算力集群对AI的重要性。坊间流传：服务器集群规模越大，人工智能的表现越出色。

全球科技巨头纷纷投入巨资建设高性能AI计算集群。谷歌推出AI Platform，利用Gemini模型大幅提升多模态数据处理能力。微软的Azure AI Compute Cluster整合最新AI技术，提供从数据处理到模型训练的全面支持。

百度作为国内最早推出大模型的企业之一，展示了强大的创新能力。11月6日，在百度智能云举办的媒体沙龙中，百度杰出系统架构师、AI计算部负责人王雁鹏分享了“十万卡集群”的技术创新及对AI行业的推动作用。

以下是媒体与嘉宾的对谈实录：

Q：百舸的客户群有哪些？重点行业是否有成功案例？

A：客户分为两类：一类是需要万卡规模的大模型初创企业，对快速建设和成本控制要求高；另一类是互联网客户，需求规模在千卡到5000卡之间，如教育行业公司。这些客户主要需求是利用自有数据进行后期训练，以适应各种场景和优化，构建数据飞轮。目前，训练需求仍是主要业务，推理需求较少。预计今年或明年，推理和小规模微调需求将增加，但总体资源需求仍低于头部客户。

Q：客户的主要需求和痛点是什么？如何解决？

A：客户需求共通之处如下： 1. 基础设施：需要强大的网络硬件互联架构，我们提供更好的解决方案。 2. 系统稳定性：帮助提高系统可靠性和有效训练时间。 3. 加速框架：优化并行策略，提升计算速度。 4. 资源利用率：通过任务混合部署，确保资源高效利用。

Q：跨地域网络问题的实际效果如何？

A：我们能在云上两个机房同时部署计算任务，客户使用时无差异。即使使用5000卡规模，也能在不同地点分配资源，使用体验一致。

Q：如何确保不同需求的混合调度效率？

A：通过混合集群实现不同特征的工作负载的混合。例如，推理任务有波峰波谷，训练任务需要固定数量的计算卡。我们提供灵活的队列机制和优先级策略，动态调整资源分配，提高利用率。此外，框架能自动重新分配并行策略，确保任务连续性和有效性。

Q：关于Checkpoint环节，如何平衡效果和成本？

A：最初Checkpoint策略是隔段时间创建，出现故障时浪费较多时间。改进为异步Checkpoint，训练不中断，缩短Checkpoint时间。进一步引入触发式Checkpoint，仅在故障时创建，有效减少数据丢失风险，提高效率。

原文链接

本文链接：https://kx.umi6.com/article/9252.html

转载请注明文章出处

AI计算集群