
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
中国科学技术大学MIRA实验室王杰教授团队提出了一种名为知识图谱驱动的监督微调(KG-SFT)的新框架,有效提升了大语言模型(LLMs)在特定领域的知识理解和推理能力。实验显示,该框架在低数据医学问答任务中,仅用5%的训练数据,英语场景下知识准确率提升14%,成功入选ICLR 2025。KG-SFT通过解析知识图谱中的推理路径,联合生成文本推理过程,包含Extractor提取知识关联、Generator生成流畅解释、Detector检测解释正确性三大组件。该方法不仅适用于低数据场景,还具备与现有数据增强方法结合的潜力,在多领域数据集中展现了广泛应用前景。
原文链接
DeepSeek发布技术报告,介绍了其R1推理模型的训练过程。R1模型分为三个阶段:基于V3基模的'冷启动'训练,通过监督微调和强化学习优化的R1模型,以及利用R1模型数据蒸馏的小模型。训练中使用了准确性奖励和格式奖励。此外,报告探讨了四种提升推理能力的方法:推理时扩展、纯强化学习、SFT+RL、蒸馏。蒸馏技术使小模型更高效,但仍需依赖现有强模型。DeepSeek展示了这些方法的有效性,为未来模型训练提供了借鉴。
原文链接
加载更多

暂无内容