标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。
最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集,评估大模型在长度指令遵循上的表现。研究发现,这些模型在长文本生成任务中表现不佳,尤其是“等于”长度指令下,多数模型评分低于60分。
LIFEBENCH由三部分组成:多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型,结果显示长文本生成是最大挑战,大多数模型评分低于40分。此外,模型在中文任务中的表现普遍逊于英文任务,并出现“过度生成”现象。
研究还指出,大部分模型夸大了其最大输出长度,只有少数模型能接近实际能力。模型面临三大瓶颈:缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外,动态校准虽在短文本任务中有效,但在长文本场景中效率低下。
通过LIFEBENCH,研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系,以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。
原文链接
本文链接:https://kx.umi6.com/article/19450.html
转载请注明文章出处
相关推荐
换一换
清华刘知远团队论文:在严格可控环境下重新回答「强化学习能否教会大模型新能力」丨ICLR 2026
2026-02-09 19:27:01
DeepSeek并非完美,训练过程存在“深度诅咒”
2025-02-12 14:30:22
美团CEO王兴:将继续加大投资开发大语言模型
2025-05-26 21:54:46
当 AI 下场炒 A 股,「推理」成了新的直觉
2025-10-28 12:51:59
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
上交大智能计算研究院论文:不只算对答案,大模型如何真正学会运筹建模丨ICLR 2026
2026-02-03 23:02:59
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
AI无处不在的小应用,与行业发展的大困局
2025-09-22 16:01:16
为什么大语言模型没能“杀死”心理学?
2024-09-11 21:34:06
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
2025-08-12 11:21:24
海洋领域首个业务化垂直领域大语言模型“瀚海智语”发布:基于 360 智脑和 DeepSeek 开发
2025-03-24 16:09:30
717 文章
634254 浏览
24小时热文
更多
-
2026-06-09 00:54:40 -
2026-06-09 00:53:08 -
2026-06-08 23:49:41