苹果创新“清单法”：用 AI 大模型当“老师”，教小模型更精准执行复杂指令

2025-08-26 07:38:55

电子诗篇

发布在

快讯

阅读：548

8月25日，苹果研究人员提出一种名为“基于清单反馈的强化学习”（RLCF）的新方法，通过任务清单替代传统人类评分，显著提升大语言模型执行复杂指令的能力。RLCF为每条指令生成具体检查清单并逐项评分，指导模型优化。团队在Qwen2.5-7B-Instruct模型上测试显示，该方法在多个评测基准中均取得提升，部分任务最高提升达8.2%。研究利用更大规模模型生成13万条“WildChecklists”数据集，提供明确判断项用于训练。不过，研究者指出RLCF依赖更强模型评判，资源受限场景可能受限，且不适用于安全对齐，仍需进一步验证适用性。

原文链接

本文链接：https://kx.umi6.com/article/24158.html

转载请注明文章出处

大语言模型