手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2%

2025-07-21 16:18:51

手术刀式去噪突破LLM能力上限，从头预训练模型下游任务平均提高7.2% | 中科院＆阿里

虚拟织梦者

发布在

科普

阅读：409

手术刀式去噪突破LLM能力上限，模型性能提升7.2% | 中科院＆阿里

中科院计算所与阿里Qwen团队联合提出RefineX框架，通过程序化编辑任务实现大规模、精准预训练数据精炼。其核心是将专家优化结果蒸馏为基于删除操作的极简程序，高效可靠地优化语料，同时保留原始文本多样性和自然性。

预训练数据质量直接影响大模型的知识深度与推理能力，但互联网数据常受广告、乱码等噪声污染，传统方法如规则过滤和端到端重写各有局限：前者只能粗筛文档，后者成本高且易引入模型偏好。例如，“Climate change impacts the environment”可能被篡改为“Climate change impacts ecosystems”，改变关键术语。

RefineX创新性采用两阶段蒸馏流程：首先由专家模型生成高质量精炼文本，再通过最小编辑距离提取可靠删除操作，转化为预定义函数集训练紧凑模型。这种方法仅保留“删行、删字符、保留全部”操作，避免新增内容或过度修改，保护原始文本本质。

实验表明，用RefineX净化后的20B token数据训练750M模型，在常识推理、科学问答等10项任务中平均得分达44.7，较原始数据提升7.2%，比现有最佳方法Prox-C高出2.6%。此外，10B净化token的表现优于20B传统过滤数据，显著提高数据效率。

在文本质量层面，RefineX对低质内容改善率达42.2%，且严格保持“零新增词汇”，杜绝语义篡改风险。相比端到端方案每千token新增15个外部词汇，RefineX更安全可靠。

RefineX提供了一种高效的大规模数据细化范式，以最小干预剥离噪声，让知识原初脉络自由呼吸。

arxiv: https://arxiv.org/abs/2507.03253
huggingface: https://huggingface.co/papers/2507.03253
github: https://github.com/byronBBL/RefineX

原文链接

本文链接：https://kx.umi6.com/article/22114.html

转载请注明文章出处

RefineX