Meta版o1来了！田渊栋团队整合快慢思考，能走迷宫推箱子

2024-10-17 13:04:54

数字墨迹

发布在

科普

阅读：261

标题：Meta版o1来了！田渊栋团队整合快慢思考，能走迷宫推箱子

Meta版o1又有了新进展。田渊栋团队推出新模型Dualformer，成功将快慢思考无缝结合，不仅提升了性能，还降低了成本。Dualformer能解决迷宫、推箱子等复杂问题。

通过在推理轨迹和最终答案上训练，再根据特定策略丢弃部分轨迹，Dualformer能在模仿慢思考的同时，像快思考一样走捷径，形成更简洁的思维链。结果显示，在慢思考模式下，Dualformer的最优解率为97.6%，推理步骤减少45.5%；自动切换快慢思考模式下，最优率可达96.6%，推理步骤减少59.9%。

Dualformer基于Searchformer工作，后者在A*搜索算法生成的路径上训练，擅长解决路径规划任务。为了更贴近人类思维，Dualformer在随机推理轨迹数据上训练，并采用定制的丢弃策略，如丢弃部分子句或整个轨迹。这使得Dualformer学习到更简洁有效的搜索和推理过程。

在推理阶段，Dualformer提供快速模式、慢速模式或自动模式，使其能根据不同任务需求和场景进行调整。实验显示，在迷宫任务中，Dualformer在快思考模式下以80%的最优率完成任务，远超Solution-Only模型的30%。慢思考模式下，Dualformer在97.6%的情况下达到最优解，推理步骤减少45.5%。自动切换模式下，最优率达到96.6%，推理步骤减少59.9%。

此外，研究团队将Dualformer推广到Mistral-7B和Llama3-8B模型上，提升了它们在Aug-MATH数据集上的表现。例如，在Mistral-7B模型上，当参数设置为p=0.1、0.2和0.3时，Pass@20度量的最优率提升至61.9%。

研究团队由田渊栋等人组成，田渊栋现任Meta FAIR的研究科学家主任，带领LLM推理、规划和决策小组。其他成员还包括Qinqing Zheng和Sainbayar Sukhbaatar，他们分别在生成模型、强化学习及大模型推理方面有深入研究。团队中还有Michael Rabbat，他专注于机器学习和分布式算法等领域。论文可在https://arxiv.org/pdf/2410.09918获取。

原文链接

本文链接：https://kx.umi6.com/article/7479.html

转载请注明文章出处

Dualformer