华为盘古718B模型最新成绩:开源第二
金磊 发自 凹非寺
量子位 | 公众号 QbitAI
在最新一期的SuperCLUE中文大模型通用基准测评中,华为的openPangu-Ultra-MoE-718B(盘古718B)以出色表现位列开源模型第二名。本次测评从数学推理、科学推理、代码生成等六个维度评估了各模型的能力,共计1260道题目。
盘古718B拥有7180亿参数的MoE架构,其成功秘诀并非依赖数据量的堆砌,而是注重“会思考”的训练哲学。通过高质量数据和创新方法,该模型在复杂场景下的推理能力尤为突出。
核心亮点
1. 数据质量优先
团队在后训练数据构建中遵循“质量优先、多样性覆盖、复杂度适配”三大原则,设计了一套全流程方案。通过三重审核机制清理低质量样本,利用去重算法确保多样性,并通过量化任务难度提升复杂场景的表现。
2. 三阶段预训练策略
预训练分为通用、推理和退火三个阶段:
- 通用阶段:学习广泛的世界知识;
- 推理阶段:强化逻辑推理能力,引入高难度多步骤推理题库;
- 退火阶段:提升上下文处理能力,增加工具使用数据占比。
3. 缓解幻觉问题
团队引入“批判内化”机制,让模型不仅学习正确答案,还能评判解答优劣。这种方法显著减少了逻辑跳跃和信息遗漏等问题,提升了输出的可靠性。
4. 工具使用能力进化
通过升级版工具数据合成框架ToolACE,模型学会了在复杂交互中灵活调用多种工具。框架涵盖领域工具组合、交互式目标轨迹生成、多智能体对话生成等技术,极大提升了模型的实际应用能力。
5. 三步式后训练优化
团队采用渐进动态微调(PDFT)、强化学习(GSPO算法)和模型融合三种方法,进一步优化性能。最终通过黑盒优化整合多个版本的优势,打造出综合性能更强的模型。
总结
盘古718B的优异表现得益于系统性的技术创新,从数据构建到后训练优化,每一步都体现了对技术细节的极致追求。这不仅展示了华为的技术实力,也为行业树立了标杆。
参考链接:
[1] https://ai.gitcode.com/ascend-tribe/openpangu-ultra-moe-718b-model
[2] https://arxiv.org/abs/2501.17703
[3] http://arxiv.org/abs/2409.00920
.png)

-
2025-10-02 00:56:00
-
2025-10-01 23:53:49
-
2025-10-01 20:50:48