1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Meta版o1又有了新进展。田渊栋团队推出新模型Dualformer,成功将快慢思考无缝结合,不仅提升了性能,还降低了成本。Dualformer能解决迷宫、推箱子等复杂问题。

通过在推理轨迹和最终答案上训练,再根据特定策略丢弃部分轨迹,Dualformer能在模仿慢思考的同时,像快思考一样走捷径,形成更简洁的思维链。结果显示,在慢思考模式下,Dualformer的最优解率为97.6%,推理步骤减少45.5%;自动切换快慢思考模式下,最优率可达96.6%,推理步骤减少59.9%。

Dualformer基于Searchformer工作,后者在A*搜索算法生成的路径上训练,擅长解决路径规划任务。为了更贴近人类思维,Dualformer在随机推理轨迹数据上训练,并采用定制的丢弃策略,如丢弃部分子句或整个轨迹。这使得Dualformer学习到更简洁有效的搜索和推理过程。

在推理阶段,Dualformer提供快速模式、慢速模式或自动模式,使其能根据不同任务需求和场景进行调整。实验显示,在迷宫任务中,Dualformer在快思考模式下以80%的最优率完成任务,远超Solution-Only模型的30%。慢思考模式下,Dualformer在97.6%的情况下达到最优解,推理步骤减少45.5%。自动切换模式下,最优率达到96.6%,推理步骤减少59.9%。

此外,研究团队将Dualformer推广到Mistral-7B和Llama3-8B模型上,提升了它们在Aug-MATH数据集上的表现。例如,在Mistral-7B模型上,当参数设置为p=0.1、0.2和0.3时,Pass@20度量的最优率提升至61.9%。

研究团队由田渊栋等人组成,田渊栋现任Meta FAIR的研究科学家主任,带领LLM推理、规划和决策小组。其他成员还包括Qinqing Zheng和Sainbayar Sukhbaatar,他们分别在生成模型、强化学习及大模型推理方面有深入研究。团队中还有Michael Rabbat,他专注于机器学习和分布式算法等领域。论文可在https://arxiv.org/pdf/2410.09918获取。

原文链接
本文链接:https://kx.umi6.com/article/7479.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
2025-09-10 16:37:14
Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子
2024-10-17 13:04:54
广西“十五五”规划建议:积极发展股权、债券等直接融资 支持上市公司提质
2025-12-07 10:25:53
河南“十五五”规划建议:全面实施“人工智能+”行动 建设重点行业领域垂直大模型
2025-12-08 08:15:51
重庆“十五五”规划建议:建设“人工智能+”市域开源新生态 迭代完善人工智能政策体系
2025-12-08 08:18:03
联想入股原力聚合机器人科技公司
2025-12-08 11:27:54
设立河南首支AI基金,领投众擎赋能产业生态
2025-12-08 15:33:26
知名数学家辞职投身AI创业:老板是00后华人女生
2025-12-06 11:24:32
2025 日本国际机器人展闭幕,中国企业占据人形机器人半壁江山
2025-12-07 22:51:22
国产滤波器企业新声半导体完成2.69亿元C轮融资
2025-12-08 18:39:38
众擎完成 A1+ 轮与 A2 轮融资,机器人 T800 全面启动规模化发售
2025-12-08 16:37:00
罗永浩谈豆包手机被部分App封杀:事情比想象的要复杂得多
2025-12-08 11:26:56
山东省“十五五”规划建议:推动深海空天、具身智能、生物制造、脑机接口、量子科技、元宇宙、氢能等成为新的经济增长点
2025-12-08 09:20:01
24小时热文
更多
扫一扫体验小程序