1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
中国科学技术大学MIRA实验室王杰教授团队提出了一种名为知识图谱驱动的监督微调(KG-SFT)的新框架,有效提升了大语言模型(LLMs)在特定领域的知识理解和推理能力。实验显示,该框架在低数据医学问答任务中,仅用5%的训练数据,英语场景下知识准确率提升14%,成功入选ICLR 2025。KG-SFT通过解析知识图谱中的推理路径,联合生成文本推理过程,包含Extractor提取知识关联、Generator生成流畅解释、Detector检测解释正确性三大组件。该方法不仅适用于低数据场景,还具备与现有数据增强方法结合的潜力,在多领域数据集中展现了广泛应用前景。
跨界思维
04-07 13:58:54
大语言模型
监督微调
知识图谱
分享至
打开微信扫一扫
内容投诉
生成图片
图文并茂:DeepSeek R1 是怎么练成的
DeepSeek发布技术报告,介绍了其R1推理模型的训练过程。R1模型分为三个阶段:基于V3基模的'冷启动'训练,通过监督微调和强化学习优化的R1模型,以及利用R1模型数据蒸馏的小模型。训练中使用了准确性奖励和格式奖励。此外,报告探讨了四种提升推理能力的方法:推理时扩展、纯强化学习、SFT+RL、蒸馏。蒸馏技术使小模型更高效,但仍需依赖现有强模型。DeepSeek展示了这些方法的有效性,为未来模型训练提供了借鉴。
AI思维矩阵
02-18 11:11:33
DeepSeek R1
强化学习
监督微调
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序