1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:Transformer能否推理引争议,DeepMind更新论文开源数据集

近日,一篇由DeepMind发表的论文引发了推特上的热烈讨论,关于Transformer模型是否具备推理能力的问题引起了广泛争议。起初,DeepMind训练了一个仅有270M参数的小型Transformer模型,该模型无需搜索即可实现大师级的下棋水平。

论文发布后,一些网友认为Transformer模型能够用于逻辑任务,但这一观点迅速遭到质疑。田渊栋指出,模型的表现依赖于直觉和战术反应,而非真正的推理能力。反对者们认为,模型的表现主要依赖于训练数据,而非真正的逻辑推理。

尽管存在争议,顾全全认为,Transformer模型能够学习推理规则,这些规则虽不等同于传统意义上的逻辑推理,但仍属于有逻辑的规则范畴。DeepMind也在论文中提到,模型通过监督学习直接从大量棋局数据中学习策略。

为了回应争议,DeepMind更新了论文,并开源了名为ChessBench的数据集。该数据集包含1000万个国际象棋局面及其走法,共计超过150亿个数据点。此外,研究团队还开源了模型权重和所有训练及评估代码,方便学术界进一步研究。

尽管Transformer模型在特定任务上表现出色,但Gary Marcus等人认为,这类模型的泛化能力仍有局限,尤其在更复杂的环境下。然而,也有观点认为,这种方法在特定领域的应用仍具有潜力。

DeepMind的研究不仅展示了Transformer模型在国际象棋中的强大性能,还为AI推理和学习提供了新方向。此次研究对小参数模型的优化和应用具有里程碑意义,预示着未来AI将在轻量化和高效推理方面取得更大进展。同时,研究还引发了关于AI是否能模仿人类思维的有趣哲学问题,尽管AI的决策模式看似直觉,但其实质仍是基于数据的学习。

原文链接
本文链接:https://kx.umi6.com/article/7728.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
参数量暴降,精度反升!哈工大宾大联手打造点云分析新SOTA
2025-05-19 18:22:05
全球首款Transformer专用AI芯片Sohu发布:比英伟达H100快20倍
2024-06-26 16:11:57
新架构RNN反超Transformer:每个隐藏状态都是一个模型,一作:从根本上改变语言模型
2024-07-09 16:12:25
每帧都是AI实时生成的,全球首款AI游戏问世了!
2024-11-05 15:45:38
小米语音首席科学家:AI发展的本质就像生物进化,不开源要慢1000倍 | MEET2026
2025-12-16 09:28:45
小米首席语音科学家 Daniel Povey:AI 发展的本质就像生物进化,不开源要慢 1000 倍
2025-12-15 16:49:04
AI 架构 Transformer 再进化:谷歌新方法突破长文本处理,注意力模块内存需求可降至 1/47
2024-10-09 12:26:03
张亚勤:Transformer五年内会被逐步重构,15-20年内实现AGI | 清华AIR无锡创新中心成立
2024-06-08 15:19:23
老黄200亿「钞能力」回应谷歌:联手Groq,补上推理短板
2025-12-28 22:46:20
三大模型巨头比拼思考“幻觉”:DeepSeek 不敌 ChatGPT,Gemini 用词最少
2025-03-28 15:55:43
一文读懂:通用智能的本质是什么?
2024-08-29 17:38:24
Kimi开源新线性注意力架构,首次超越全注意力模型,推理速度暴涨6倍
2025-10-31 17:41:14
一句话生成任务专属LoRA!Transformer作者创业公司颠覆LLM微调
2025-06-13 18:12:01
24小时热文
更多
扫一扫体验小程序