1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Meta版o1又有了新进展。田渊栋团队推出新模型Dualformer,成功将快慢思考无缝结合,不仅提升了性能,还降低了成本。Dualformer能解决迷宫、推箱子等复杂问题。

通过在推理轨迹和最终答案上训练,再根据特定策略丢弃部分轨迹,Dualformer能在模仿慢思考的同时,像快思考一样走捷径,形成更简洁的思维链。结果显示,在慢思考模式下,Dualformer的最优解率为97.6%,推理步骤减少45.5%;自动切换快慢思考模式下,最优率可达96.6%,推理步骤减少59.9%。

Dualformer基于Searchformer工作,后者在A*搜索算法生成的路径上训练,擅长解决路径规划任务。为了更贴近人类思维,Dualformer在随机推理轨迹数据上训练,并采用定制的丢弃策略,如丢弃部分子句或整个轨迹。这使得Dualformer学习到更简洁有效的搜索和推理过程。

在推理阶段,Dualformer提供快速模式、慢速模式或自动模式,使其能根据不同任务需求和场景进行调整。实验显示,在迷宫任务中,Dualformer在快思考模式下以80%的最优率完成任务,远超Solution-Only模型的30%。慢思考模式下,Dualformer在97.6%的情况下达到最优解,推理步骤减少45.5%。自动切换模式下,最优率达到96.6%,推理步骤减少59.9%。

此外,研究团队将Dualformer推广到Mistral-7B和Llama3-8B模型上,提升了它们在Aug-MATH数据集上的表现。例如,在Mistral-7B模型上,当参数设置为p=0.1、0.2和0.3时,Pass@20度量的最优率提升至61.9%。

研究团队由田渊栋等人组成,田渊栋现任Meta FAIR的研究科学家主任,带领LLM推理、规划和决策小组。其他成员还包括Qinqing Zheng和Sainbayar Sukhbaatar,他们分别在生成模型、强化学习及大模型推理方面有深入研究。团队中还有Michael Rabbat,他专注于机器学习和分布式算法等领域。论文可在https://arxiv.org/pdf/2410.09918获取。

原文链接
本文链接:https://kx.umi6.com/article/7479.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子
2024-10-17 13:04:54
Canalys:二季度全球云基础设施服务支出达953亿美元 同比增长22%
2025-09-09 12:14:24
博主的边界没了
2025-09-09 08:09:10
大模型破译甲骨文创下新 SOTA,复旦团队推出新框架
2025-09-08 14:00:34
B站开源自研 IndexTTS-2.0:情感可控、时长可控的零样本语音合成 AI 模型
2025-09-09 16:18:36
市场监管总局:积极推动老旧电梯等特种设备更新改造以及电动自行车、家电等消费品以旧换新
2025-09-09 21:25:12
杭州:加快电动垂直起降飞行器(eVTOL)研发部署
2025-09-09 14:22:44
“AI 教父”辛顿自曝:前女友在分手时曾用 ChatGPT 来指责他
2025-09-08 18:01:47
字节跳动发布Seedream 4.0图像创作模型
2025-09-09 13:15:57
27家科创板芯片公司集体参会:关于AI产品导入、供应链合作有哪些新进展?
2025-09-08 21:05:04
开放全栈!超越π0,具身智能基础大模型迎来真·开源,开发者狂喜
2025-09-08 13:58:15
美银:预计2030年全球AI资本支出将达8000亿美元
2025-09-09 15:19:50
消息称博通有望拿下苹果、xAI 的 AI ASIC 订单
2025-09-09 11:12:15
24小时热文
更多
扫一扫体验小程序