标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。
最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集,评估大模型在长度指令遵循上的表现。研究发现,这些模型在长文本生成任务中表现不佳,尤其是“等于”长度指令下,多数模型评分低于60分。
LIFEBENCH由三部分组成:多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型,结果显示长文本生成是最大挑战,大多数模型评分低于40分。此外,模型在中文任务中的表现普遍逊于英文任务,并出现“过度生成”现象。
研究还指出,大部分模型夸大了其最大输出长度,只有少数模型能接近实际能力。模型面临三大瓶颈:缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外,动态校准虽在短文本任务中有效,但在长文本场景中效率低下。
通过LIFEBENCH,研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系,以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。
原文链接
本文链接:https://kx.umi6.com/article/19450.html
转载请注明文章出处
相关推荐
.png)
换一换
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体
2024-11-25 10:07:47
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
425 文章
65675 浏览
24小时热文
更多

-
2025-07-19 14:57:21
-
2025-07-19 14:56:08
-
2025-07-19 14:55:01