清单反馈 - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

苹果创新“清单法”：用 AI 大模型当“老师”，教小模型更精准执行复杂指令

8月25日，苹果研究人员提出一种名为“基于清单反馈的强化学习”（RLCF）的新方法，通过任务清单替代传统人类评分，显著提升大语言模型执行复杂指令的能力。RLCF为每条指令生成具体检查清单并逐项评分，指导模型优化。团队在Qwen2.5-7B-Instruct模型上测试显示，该方法在多个评测基准中均取得提升，部分任务最高提升达8.2%。研究利用更大规模模型生成13万条“WildChecklists”数据集，提供明确判断项用于训练。不过，研究者指出RLCF依赖更强模型评判，资源受限场景可能受限，且不适用于安全对齐，仍需进一步验证适用性。

原文链接