1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

无需外部数据!AI自问自答实现推理能力进化

AI通过自问自答提升推理能力?卡内基梅隆大学团队提出了一种新框架——SQLM,一种无需外部数据的自我提问模型。该框架包含“提问者”和“解答者”两个角色:提问者生成问题,解答者解决问题,两者通过强化学习优化,形成闭环。

目前,大语言模型训练依赖人工数据集,耗时费力。尽管无监督奖励函数减轻了部分负担,但仍需高质量输入提示。这使得“生成高质量问题”成为关键难题。现有方法缺乏可扩展且自我维持的流程,而SQLM通过自博弈解决了这一问题。

在SQLM中,提问者生成问题,解答者回答问题,双方均通过强化学习最大化期望奖励。提问者的表现影响解答者,解答者的反馈又优化提问者。由于缺乏真实答案,研究者设计了基于“生成者–验证者差距”的自监督奖励函数:对于简单问题(如算术),采用多数投票作为奖励;对于复杂问题(如编程),基于测试用例通过率计算奖励。这种极小极大式框架实现了稳定训练,并能自适应调整奖励机制。

实验中,研究者使用Qwen2.5-3B-Instruct评估了三种任务:算术、代数和编程。结果显示,SQLM显著提升了模型性能,算术任务准确率提高14%,代数任务提高16%,编程任务提高7%。相比格式奖励基线,SQLM展现了推理能力的真实提升。

团队成员包括多位华人学者:Lili Chen(卡内基梅隆大学博士生)、Katerina Fragkiadaki(卡内基梅隆大学副教授)、Hao Liu(即将任该校助理教授)以及Deepak Pathak(Skild AI创始人兼助理教授)。

参考链接:
[1] https://x.com/iScienceLuvr/status/1953052817012474353
[2] https://arxiv.org/abs/2508.03682

原文链接
本文链接:https://kx.umi6.com/article/23241.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
深夜突袭,DeepSeek-Prover-V2加冕数学王者!671B数学推理逆天狂飙
2025-05-05 09:43:44
Pokee.ai 朱哲清:用 RL 搭建智能体的「骨骼与神经」| AI 产品十人谈
2025-05-08 11:29:43
带图推理碾压同类开源模型!港中文微软等开源OpenThinkIMG框架
2025-05-17 13:06:23
宇树机器人强化学习代码全面开源,训练到仿真和实操手把手教学
2024-12-17 18:08:18
Andrej Karpathy 最新视频盛赞 DeepSeek:R1 正在发现人类思考的逻辑并进行复现
2025-02-07 15:00:52
消息称 AI 创企边塞科技被蚂蚁集团收购:公司会独立运营,投资人已退出
2024-11-21 10:30:37
OpenAI早期员工David Luan最新访谈:DeepSeek并未改变AI技术的叙事
2025-02-26 09:24:20
2025年图灵奖:强化学习的前世今生
2025-04-01 10:19:18
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
大模型RL不止数学代码!7B奖励模型搞定医学法律经济全学科, 不用思维链也能做题
2025-04-02 17:34:52
迁移DeepSeek-R1同款算法,小米让7B模型登顶音频理解推断MMAU榜单
2025-03-17 12:34:27
月之暗面发布视觉思考模型 k1
2024-12-16 14:41:32
通义实验室新研究:大模型自己「扮演」搜索引擎,提升推理能力无需搜索API
2025-05-17 13:07:29
24小时热文
更多
扫一扫体验小程序