1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

手术刀式去噪突破LLM能力上限,模型性能提升7.2% | 中科院&阿里

中科院计算所与阿里Qwen团队联合提出RefineX框架,通过程序化编辑任务实现大规模、精准预训练数据精炼。其核心是将专家优化结果蒸馏为基于删除操作的极简程序,高效可靠地优化语料,同时保留原始文本多样性和自然性。

预训练数据质量直接影响大模型的知识深度与推理能力,但互联网数据常受广告、乱码等噪声污染,传统方法如规则过滤和端到端重写各有局限:前者只能粗筛文档,后者成本高且易引入模型偏好。例如,“Climate change impacts the environment”可能被篡改为“Climate change impacts ecosystems”,改变关键术语。

RefineX创新性采用两阶段蒸馏流程:首先由专家模型生成高质量精炼文本,再通过最小编辑距离提取可靠删除操作,转化为预定义函数集训练紧凑模型。这种方法仅保留“删行、删字符、保留全部”操作,避免新增内容或过度修改,保护原始文本本质。

实验表明,用RefineX净化后的20B token数据训练750M模型,在常识推理、科学问答等10项任务中平均得分达44.7,较原始数据提升7.2%,比现有最佳方法Prox-C高出2.6%。此外,10B净化token的表现优于20B传统过滤数据,显著提高数据效率。

在文本质量层面,RefineX对低质内容改善率达42.2%,且严格保持“零新增词汇”,杜绝语义篡改风险。相比端到端方案每千token新增15个外部词汇,RefineX更安全可靠。

RefineX提供了一种高效的大规模数据细化范式,以最小干预剥离噪声,让知识原初脉络自由呼吸。

arxiv: https://arxiv.org/abs/2507.03253
huggingface: https://huggingface.co/papers/2507.03253
github: https://github.com/byronBBL/RefineX

原文链接
本文链接:https://kx.umi6.com/article/22114.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
手术刀式去噪突破LLM能力上限,从头预训练模型下游任务平均提高7.2% | 中科院&阿里
2025-07-21 16:18:51
“最美PM”宋紫薇获红杉蚂蚁投资,创业方向略有调整,转向AI护肤
2026-03-09 14:44:41
俄研究机构训练人工智能识别早期乳腺癌
2026-03-07 11:27:53
周鸿祎解读AI短剧:直言有望颠覆Netflix 生产效率提升数十倍
2026-03-08 14:07:20
国产AI短剧《霍去病》火到海外 播放量超5亿!3000元成本、3人团队5天产出80集
2026-03-06 17:20:41
看完背后冷汗流!研究:先拥抱AI的行业或许会先被AI吃掉
2026-03-07 08:16:24
英伟达投资的数据中心公司Nscale完成20亿美元融资 估值达146亿美元
2026-03-09 18:02:36
鹅厂门口免费装龙虾,几百人排爆了!一代人有一代人的鸡蛋要领
2026-03-08 18:25:43
鹅厂门口爆满了!腾讯工程师在总部楼下免费安装OpenClaw
2026-03-06 15:12:11
打败GPT-5.2,嵌入真实工业生产,这个大模型什么来头?
2026-03-09 16:53:38
交通运输部部长刘伟:“十五五”时期重点深入实施“人工智能+”行动
2026-03-09 11:33:23
Transformer作者重造龙虾,Rust搓出钢铁版,告别OpenClaw裸奔
2026-03-06 18:21:20
美国国防部官员称目前未与Anthropic进行任何实质性谈判
2026-03-06 11:57:53
24小时热文
更多
扫一扫体验小程序