1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Meta版o1又有了新进展。田渊栋团队推出新模型Dualformer,成功将快慢思考无缝结合,不仅提升了性能,还降低了成本。Dualformer能解决迷宫、推箱子等复杂问题。

通过在推理轨迹和最终答案上训练,再根据特定策略丢弃部分轨迹,Dualformer能在模仿慢思考的同时,像快思考一样走捷径,形成更简洁的思维链。结果显示,在慢思考模式下,Dualformer的最优解率为97.6%,推理步骤减少45.5%;自动切换快慢思考模式下,最优率可达96.6%,推理步骤减少59.9%。

Dualformer基于Searchformer工作,后者在A*搜索算法生成的路径上训练,擅长解决路径规划任务。为了更贴近人类思维,Dualformer在随机推理轨迹数据上训练,并采用定制的丢弃策略,如丢弃部分子句或整个轨迹。这使得Dualformer学习到更简洁有效的搜索和推理过程。

在推理阶段,Dualformer提供快速模式、慢速模式或自动模式,使其能根据不同任务需求和场景进行调整。实验显示,在迷宫任务中,Dualformer在快思考模式下以80%的最优率完成任务,远超Solution-Only模型的30%。慢思考模式下,Dualformer在97.6%的情况下达到最优解,推理步骤减少45.5%。自动切换模式下,最优率达到96.6%,推理步骤减少59.9%。

此外,研究团队将Dualformer推广到Mistral-7B和Llama3-8B模型上,提升了它们在Aug-MATH数据集上的表现。例如,在Mistral-7B模型上,当参数设置为p=0.1、0.2和0.3时,Pass@20度量的最优率提升至61.9%。

研究团队由田渊栋等人组成,田渊栋现任Meta FAIR的研究科学家主任,带领LLM推理、规划和决策小组。其他成员还包括Qinqing Zheng和Sainbayar Sukhbaatar,他们分别在生成模型、强化学习及大模型推理方面有深入研究。团队中还有Michael Rabbat,他专注于机器学习和分布式算法等领域。论文可在https://arxiv.org/pdf/2410.09918获取。

原文链接
本文链接:https://kx.umi6.com/article/7479.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
商务部部长王文涛会见美国英伟达公司总裁兼首席执行官黄仁勋
2025-07-18 14:43:11
知合计算发布通推一体CPU产品
2025-07-17 18:34:51
这次,Meta挖走了OpenAI真正的核心成员
2025-07-18 11:38:09
24小时热文
更多
扫一扫体验小程序