标题:Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子
Meta版o1又有了新进展。田渊栋团队推出新模型Dualformer,成功将快慢思考无缝结合,不仅提升了性能,还降低了成本。Dualformer能解决迷宫、推箱子等复杂问题。
通过在推理轨迹和最终答案上训练,再根据特定策略丢弃部分轨迹,Dualformer能在模仿慢思考的同时,像快思考一样走捷径,形成更简洁的思维链。结果显示,在慢思考模式下,Dualformer的最优解率为97.6%,推理步骤减少45.5%;自动切换快慢思考模式下,最优率可达96.6%,推理步骤减少59.9%。
Dualformer基于Searchformer工作,后者在A*搜索算法生成的路径上训练,擅长解决路径规划任务。为了更贴近人类思维,Dualformer在随机推理轨迹数据上训练,并采用定制的丢弃策略,如丢弃部分子句或整个轨迹。这使得Dualformer学习到更简洁有效的搜索和推理过程。
在推理阶段,Dualformer提供快速模式、慢速模式或自动模式,使其能根据不同任务需求和场景进行调整。实验显示,在迷宫任务中,Dualformer在快思考模式下以80%的最优率完成任务,远超Solution-Only模型的30%。慢思考模式下,Dualformer在97.6%的情况下达到最优解,推理步骤减少45.5%。自动切换模式下,最优率达到96.6%,推理步骤减少59.9%。
此外,研究团队将Dualformer推广到Mistral-7B和Llama3-8B模型上,提升了它们在Aug-MATH数据集上的表现。例如,在Mistral-7B模型上,当参数设置为p=0.1、0.2和0.3时,Pass@20度量的最优率提升至61.9%。
研究团队由田渊栋等人组成,田渊栋现任Meta FAIR的研究科学家主任,带领LLM推理、规划和决策小组。其他成员还包括Qinqing Zheng和Sainbayar Sukhbaatar,他们分别在生成模型、强化学习及大模型推理方面有深入研究。团队中还有Michael Rabbat,他专注于机器学习和分布式算法等领域。论文可在https://arxiv.org/pdf/2410.09918获取。
.png)

-
2025-07-19 22:57:32
-
2025-07-19 21:58:20
-
2025-07-19 21:57:13