1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子

Meta版o1又有了新进展。田渊栋团队推出新模型Dualformer,成功将快慢思考无缝结合,不仅提升了性能,还降低了成本。Dualformer能解决迷宫、推箱子等复杂问题。

通过在推理轨迹和最终答案上训练,再根据特定策略丢弃部分轨迹,Dualformer能在模仿慢思考的同时,像快思考一样走捷径,形成更简洁的思维链。结果显示,在慢思考模式下,Dualformer的最优解率为97.6%,推理步骤减少45.5%;自动切换快慢思考模式下,最优率可达96.6%,推理步骤减少59.9%。

Dualformer基于Searchformer工作,后者在A*搜索算法生成的路径上训练,擅长解决路径规划任务。为了更贴近人类思维,Dualformer在随机推理轨迹数据上训练,并采用定制的丢弃策略,如丢弃部分子句或整个轨迹。这使得Dualformer学习到更简洁有效的搜索和推理过程。

在推理阶段,Dualformer提供快速模式、慢速模式或自动模式,使其能根据不同任务需求和场景进行调整。实验显示,在迷宫任务中,Dualformer在快思考模式下以80%的最优率完成任务,远超Solution-Only模型的30%。慢思考模式下,Dualformer在97.6%的情况下达到最优解,推理步骤减少45.5%。自动切换模式下,最优率达到96.6%,推理步骤减少59.9%。

此外,研究团队将Dualformer推广到Mistral-7B和Llama3-8B模型上,提升了它们在Aug-MATH数据集上的表现。例如,在Mistral-7B模型上,当参数设置为p=0.1、0.2和0.3时,Pass@20度量的最优率提升至61.9%。

研究团队由田渊栋等人组成,田渊栋现任Meta FAIR的研究科学家主任,带领LLM推理、规划和决策小组。其他成员还包括Qinqing Zheng和Sainbayar Sukhbaatar,他们分别在生成模型、强化学习及大模型推理方面有深入研究。团队中还有Michael Rabbat,他专注于机器学习和分布式算法等领域。论文可在https://arxiv.org/pdf/2410.09918获取。

原文链接
本文链接:https://kx.umi6.com/article/7479.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
快慢思考不用二选一!华为开源7B模型实现自由切,精度不变思维链减近50%
2025-09-10 16:37:14
Meta版o1来了!田渊栋团队整合快慢思考,能走迷宫推箱子
2024-10-17 13:04:54
国产AI短剧《霍去病》火到海外 播放量超5亿!3000元成本、3人团队5天产出80集
2026-03-06 17:20:41
龙虾最大痛点被官方插件升级!对话永不忘记,GPT和Gemini最强模型都可接入
2026-03-09 13:43:10
华泰证券:超配电力链中上游品种 内需与AI是能源之外的主要线索
2026-03-06 20:36:01
美国国防部官员称目前未与Anthropic进行任何实质性谈判
2026-03-06 11:57:53
腾讯版“小龙虾”WorkBuddy正式上线
2026-03-09 15:52:31
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
清华公布毕业生去向:出国比例仅8.5%,华为字节是最大赢家
2026-03-08 15:07:37
2026年,AI初创全球化的「变与不变」|沙龙招募
2026-03-06 19:27:03
龙虾上桌!上市公司抢着养 OpenClaw引爆科技圈
2026-03-09 18:01:30
AI浏览器何时才能安全?
2026-03-07 00:49:29
最高法:打击滥用AI换脸等行为 斩断为电诈提供“技术助攻”的链条
2026-03-09 15:54:50
24小时热文
更多
扫一扫体验小程序