自从ChatGPT问世以来,大语言模型不断刷新人们对人工智能的认知,甚至“通用人工智能即将到来”也成了陈词滥调。然而,学界内部对大语言模型的质疑声渐增,尤其是在“可解释的人工智能”方面的研究遭遇瓶颈。最近,苹果公司的研究报告指出大语言模型并不具备逻辑推理能力,引发了广泛讨论。
苹果的研究评估了大语言模型在数学推理方面的能力,通过修改数学应用题中的专有名词、数字和添加无关信息,发现模型的正确率显著下降。这表明大语言模型并不真正理解数学概念或进行逻辑推理,只是依赖记忆和匹配。
去年,我曾指出ChatGPT不具备逻辑推理能力,因为它依赖于大量训练数据的记忆,而非真正的推理能力。苹果公司的研究支持了这一观点。但反对者认为,大语言模型已经展示了超越人类的推理能力,不应仅凭某些错误结论否定其推理能力。
正反双方主要通过列举成功或失败的案例来支持各自的立场,这虽然具体可验证,但难以全面揭示系统的一般推理能力。此外,如何衡量现有缺陷的可改进性也是一个问题。
“推理”通常指从已知前提推导出新结论的过程,但在定义“正确性”时存在争议。逻辑学研究推理的规范性,而心理学关注推理的描述性。神经网络模型倾向于描述性理论,依赖人类的实际行为,但缺乏规范性推理的透明度和可靠性。
深度学习中的推理基于描述性理论,通过训练数据来确定模型行为,这导致了难以解释的过程和潜在的偏见。尽管近期出现了“思维链”等改进措施,但其正确性标准仍受限于训练数据。
推理能力的来源涉及先天因素和后天因素。大语言模型可以被视为描述性推理模型,擅长模式匹配而非遵循逻辑。尽管它们在某些场景中表现出色,但不能视为实现了推理功能。大语言模型可以通过训练学习逻辑和数学知识,但这些知识更多是对象层面的知识,而非元知识。
总之,大语言模型非常有用,但不能解决人工智能的基本问题,包括推理。
.png)

-
2025-07-19 11:52:20
-
2025-07-19 11:51:22
-
2025-07-19 10:50:54