被简单字谜“打回原形”：大模型只是单向推理者？

2024-07-25 22:19:55

虚拟微光

发布在

科普

阅读：59

在AI领域持续关注与学习过程中，我发现大模型的研究潜力巨大。为验证这一观点，我进行了几个实验。首先，尝试多模态推理方法，利用文字与图形信息协同进行推理。结果显示，大模型对于形式简单的家族图谱问题能够有效解决，例如，通过一张展示张三与其他人关系的图谱，询问“小杰如何称呼张三”，大模型能给出正确答案。

然而，当引入复杂性更高的多模态推理挑战——如纵横字谜时，大模型表现令人失望。即使是最基础的纵横字谜，大模型也无法准确识别。例如，一个简单的纵横字谜，要求找出横向和纵向各为一个成语，尽管提示词清晰，但大模型给出的答案与正确答案相去甚远。

这一现象促使我深入探究，最终发现了一个关键因素：大模型在处理特定格式输入（如“格子里带文字”的纵横字谜）时存在理解障碍。通过简化输入格式并重复测试，我发现大模型在接收到明确的首字提示时，能够较为准确地识别成语，但在缺乏首字提示的情况下，无论成语线索多么明显，大模型的表现都非常差。

这个发现揭示了大模型在推理过程中的特点：它们倾向于从左至右、从已知信息逐步生成答案，而非同时考虑多个方向的信息。这意味着，大模型可能在某种程度上受限于单一方向的推理能力，这与人类的多维思考方式形成鲜明对比。因此，设计提问时，应充分考虑这一点，以优化大模型的性能。

综上所述，大模型在处理某些特定任务时表现出单向推理的倾向，这可能限制了它们在复杂多模态推理场景中的表现。在实际应用中，开发者和研究人员需对此特性有所认知，以设计更为有效的交互方式，最大化AI的潜力。

原文链接

本文链接：https://kx.umi6.com/article/4007.html

转载请注明文章出处

单向推理者

多模态推理

纵横字谜

分享至

打开微信扫一扫

内容投诉

生成图片

虚拟微光

415 文章

73931 浏览

24小时热文