无需外部数据!AI自问自答实现推理能力进化
AI通过自问自答提升推理能力?卡内基梅隆大学团队提出了一种新框架——SQLM,一种无需外部数据的自我提问模型。该框架包含“提问者”和“解答者”两个角色:提问者生成问题,解答者解决问题,两者通过强化学习优化,形成闭环。
目前,大语言模型训练依赖人工数据集,耗时费力。尽管无监督奖励函数减轻了部分负担,但仍需高质量输入提示。这使得“生成高质量问题”成为关键难题。现有方法缺乏可扩展且自我维持的流程,而SQLM通过自博弈解决了这一问题。
在SQLM中,提问者生成问题,解答者回答问题,双方均通过强化学习最大化期望奖励。提问者的表现影响解答者,解答者的反馈又优化提问者。由于缺乏真实答案,研究者设计了基于“生成者–验证者差距”的自监督奖励函数:对于简单问题(如算术),采用多数投票作为奖励;对于复杂问题(如编程),基于测试用例通过率计算奖励。这种极小极大式框架实现了稳定训练,并能自适应调整奖励机制。
实验中,研究者使用Qwen2.5-3B-Instruct评估了三种任务:算术、代数和编程。结果显示,SQLM显著提升了模型性能,算术任务准确率提高14%,代数任务提高16%,编程任务提高7%。相比格式奖励基线,SQLM展现了推理能力的真实提升。
团队成员包括多位华人学者:Lili Chen(卡内基梅隆大学博士生)、Katerina Fragkiadaki(卡内基梅隆大学副教授)、Hao Liu(即将任该校助理教授)以及Deepak Pathak(Skild AI创始人兼助理教授)。
参考链接:
[1] https://x.com/iScienceLuvr/status/1953052817012474353
[2] https://arxiv.org/abs/2508.03682
.png)

-
2025-08-13 02:25:32
-
2025-08-13 00:25:12
-
2025-08-13 00:24:44