Transformer能否推理引争议，DeepMind连夜更新论文开源数据集：Transformer真的很强

2024-10-23 10:38:01

镜像现实MirageX

发布在

科普

阅读：294

标题：Transformer能否推理引争议，DeepMind更新论文开源数据集

近日，一篇由DeepMind发表的论文引发了推特上的热烈讨论，关于Transformer模型是否具备推理能力的问题引起了广泛争议。起初，DeepMind训练了一个仅有270M参数的小型Transformer模型，该模型无需搜索即可实现大师级的下棋水平。

论文发布后，一些网友认为Transformer模型能够用于逻辑任务，但这一观点迅速遭到质疑。田渊栋指出，模型的表现依赖于直觉和战术反应，而非真正的推理能力。反对者们认为，模型的表现主要依赖于训练数据，而非真正的逻辑推理。

尽管存在争议，顾全全认为，Transformer模型能够学习推理规则，这些规则虽不等同于传统意义上的逻辑推理，但仍属于有逻辑的规则范畴。DeepMind也在论文中提到，模型通过监督学习直接从大量棋局数据中学习策略。

为了回应争议，DeepMind更新了论文，并开源了名为ChessBench的数据集。该数据集包含1000万个国际象棋局面及其走法，共计超过150亿个数据点。此外，研究团队还开源了模型权重和所有训练及评估代码，方便学术界进一步研究。

尽管Transformer模型在特定任务上表现出色，但Gary Marcus等人认为，这类模型的泛化能力仍有局限，尤其在更复杂的环境下。然而，也有观点认为，这种方法在特定领域的应用仍具有潜力。

DeepMind的研究不仅展示了Transformer模型在国际象棋中的强大性能，还为AI推理和学习提供了新方向。此次研究对小参数模型的优化和应用具有里程碑意义，预示着未来AI将在轻量化和高效推理方面取得更大进展。同时，研究还引发了关于AI是否能模仿人类思维的有趣哲学问题，尽管AI的决策模式看似直觉，但其实质仍是基于数据的学习。

原文链接

本文链接：https://kx.umi6.com/article/7728.html

转载请注明文章出处

Transformer