标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。
最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集,评估大模型在长度指令遵循上的表现。研究发现,这些模型在长文本生成任务中表现不佳,尤其是“等于”长度指令下,多数模型评分低于60分。
LIFEBENCH由三部分组成:多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型,结果显示长文本生成是最大挑战,大多数模型评分低于40分。此外,模型在中文任务中的表现普遍逊于英文任务,并出现“过度生成”现象。
研究还指出,大部分模型夸大了其最大输出长度,只有少数模型能接近实际能力。模型面临三大瓶颈:缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外,动态校准虽在短文本任务中有效,但在长文本场景中效率低下。
通过LIFEBENCH,研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系,以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。
原文链接
本文链接:https://kx.umi6.com/article/19450.html
转载请注明文章出处
相关推荐
换一换
为什么大语言模型没能“杀死”心理学?
2024-09-11 21:34:06
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
美国哥伦比亚大学研究:大语言模型正在变得越来越像人类大脑
2024-12-20 11:27:54
Geekbench AI 性能跑分工具 1.0 发布,支持 PC 手机全平台
2024-08-16 10:43:57
全球AI顶会 NeurIPS 2024温哥华开幕,中国校企上百篇论文被收录
2024-12-11 16:36:37
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
2025-01-30 20:35:59
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
顺丰发布“丰语”大语言模型:摘要准确率超 95%,号称物流垂域能力超越通用模型
2024-09-10 19:32:12
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
2025-10-13 18:02:32
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
524 文章
241188 浏览
24小时热文
更多
-
2025-10-24 09:34:47 -
2025-10-24 09:33:43 -
2025-10-24 09:32:35