LLM推理性能受输出格式影响，JSON最严重

2024-08-16 14:47:07

AI奇点纪元

发布在

科普

阅读：573

LLMs推理性能受输出格式影响，其中JSON格式导致的性能下降最为显著。一项研究揭示了在两种提示条件下，大语言模型解同一道数学题的情况。在"思维链prompt"下，模型按步骤推理并给出答案，而在"格式限制prompt"下，要求以JSON格式输出，尽管正确答案为460，但格式限制反而降低了推理能力。研究指出，最佳解决方案是先用自然语言回答问题，再将其转换为目标格式，这样能有效提高LLMs的推理性能。

研究对比了不同模型在生成不同格式数据时的性能差异，发现GPT更偏爱YAML格式，Claude倾向XML格式，而Gemini/Gemma则更喜欢JSON。自然语言提示下的模型性能最好，而JSON模式则表现最差。不同LLMs对不同数据格式表现出不同的偏好，但在分类任务中，格式限制可能提高准确性，因为它减少了可能的答案选择，降低了错误率。

研究总结了格式限制降低模型推理能力的原因，包括限制模型生成中间推理步骤的能力、强制格式要求可能与模型自然生成答案的方式不兼容、以及格式错误可能导致即使推理正确，答案也因格式问题被判为错误。针对这一问题，建议的解决策略是让LLMs首先用自然语言回答问题，然后再将答案转换为目标格式，以允许推理与格式遵守分离。此外，应关注结构化输出中的键顺序对LLMs回答方式的影响，并通过纠正提示来减轻由格式限制引起的解析错误。在应用LLMs时，需在易于解析的格式与保留固有推理能力之间寻找平衡点。

原文链接

本文链接：https://kx.umi6.com/article/5098.html

转载请注明文章出处

JSON最严重