标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。
最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集,评估大模型在长度指令遵循上的表现。研究发现,这些模型在长文本生成任务中表现不佳,尤其是“等于”长度指令下,多数模型评分低于60分。
LIFEBENCH由三部分组成:多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型,结果显示长文本生成是最大挑战,大多数模型评分低于40分。此外,模型在中文任务中的表现普遍逊于英文任务,并出现“过度生成”现象。
研究还指出,大部分模型夸大了其最大输出长度,只有少数模型能接近实际能力。模型面临三大瓶颈:缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外,动态校准虽在短文本任务中有效,但在长文本场景中效率低下。
通过LIFEBENCH,研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系,以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。
原文链接
本文链接:https://kx.umi6.com/article/19450.html
转载请注明文章出处
相关推荐
换一换
李飞飞一年前究竟说了啥?怎么又火了
2025-09-11 14:55:23
鸿海首个大语言模型 FoxBrain 发布:具备推理能力,未来计划部分开源
2025-03-10 16:45:45
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
为什么大语言模型没能“杀死”心理学?
2024-09-11 21:34:06
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025-07-26 17:44:18
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
DeepSeek之后,每一家公司都是Agent
2025-04-02 21:46:19
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
讲座预约 | AI4S 的前世今生:大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live
2024-09-12 09:43:52
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
仅仅一天,Gemini就夺回了GPT-4o拿走的头名
2024-11-22 17:08:30
GPT-4o不敌Qwen,无一模型及格!UC伯克利港大等提出多模态新基准
2025-05-16 13:37:28
621 文章
400270 浏览
24小时热文
更多
-
2026-01-23 06:34:26 -
2026-01-23 00:20:44 -
2026-01-22 23:18:34