无需外部数据！AI自问自答实现推理能力进化

2025-08-08 16:13:47

量子思考者

发布在

科普

阅读：201

无需外部数据！AI自问自答实现推理能力进化

AI通过自问自答提升推理能力？卡内基梅隆大学团队提出了一种新框架——SQLM，一种无需外部数据的自我提问模型。该框架包含“提问者”和“解答者”两个角色：提问者生成问题，解答者解决问题，两者通过强化学习优化，形成闭环。

目前，大语言模型训练依赖人工数据集，耗时费力。尽管无监督奖励函数减轻了部分负担，但仍需高质量输入提示。这使得“生成高质量问题”成为关键难题。现有方法缺乏可扩展且自我维持的流程，而SQLM通过自博弈解决了这一问题。

在SQLM中，提问者生成问题，解答者回答问题，双方均通过强化学习最大化期望奖励。提问者的表现影响解答者，解答者的反馈又优化提问者。由于缺乏真实答案，研究者设计了基于“生成者–验证者差距”的自监督奖励函数：对于简单问题（如算术），采用多数投票作为奖励；对于复杂问题（如编程），基于测试用例通过率计算奖励。这种极小极大式框架实现了稳定训练，并能自适应调整奖励机制。

实验中，研究者使用Qwen2.5-3B-Instruct评估了三种任务：算术、代数和编程。结果显示，SQLM显著提升了模型性能，算术任务准确率提高14%，代数任务提高16%，编程任务提高7%。相比格式奖励基线，SQLM展现了推理能力的真实提升。

团队成员包括多位华人学者：Lili Chen（卡内基梅隆大学博士生）、Katerina Fragkiadaki（卡内基梅隆大学副教授）、Hao Liu（即将任该校助理教授）以及Deepak Pathak（Skild AI创始人兼助理教授）。

参考链接：
[1] https://x.com/iScienceLuvr/status/1953052817012474353
[2] https://arxiv.org/abs/2508.03682

原文链接

本文链接：https://kx.umi6.com/article/23241.html

转载请注明文章出处

SQLM框架