基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

2025-05-29 15:34:10

电子诗篇

发布在

科普

阅读：926

标题：基准测试揭秘大模型“字数危机”：26个模型长文本生成普遍拉胯，最大输出长度过度宣传

你是否曾对大语言模型（LLMs）下达过明确的“长度指令”？比如，“写一篇10,000字的长文”。看似简单的要求，实际却让模型“力不从心”：要么生成不足，要么重复啰嗦，甚至直接罢工。

最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集，评估大模型在长度指令遵循上的表现。研究发现，这些模型在长文本生成任务中表现不佳，尤其是“等于”长度指令下，多数模型评分低于60分。

LIFEBENCH由三部分组成：多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型，结果显示长文本生成是最大挑战，大多数模型评分低于40分。此外，模型在中文任务中的表现普遍逊于英文任务，并出现“过度生成”现象。

研究还指出，大部分模型夸大了其最大输出长度，只有少数模型能接近实际能力。模型面临三大瓶颈：缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外，动态校准虽在短文本任务中有效，但在长文本场景中效率低下。

通过LIFEBENCH，研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系，以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。

原文链接

本文链接：https://kx.umi6.com/article/19450.html

转载请注明文章出处

基准测试