1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传

你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。

最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集,评估大模型在长度指令遵循上的表现。研究发现,这些模型在长文本生成任务中表现不佳,尤其是“等于”长度指令下,多数模型评分低于60分。

LIFEBENCH由三部分组成:多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型,结果显示长文本生成是最大挑战,大多数模型评分低于40分。此外,模型在中文任务中的表现普遍逊于英文任务,并出现“过度生成”现象。

研究还指出,大部分模型夸大了其最大输出长度,只有少数模型能接近实际能力。模型面临三大瓶颈:缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外,动态校准虽在短文本任务中有效,但在长文本场景中效率低下。

通过LIFEBENCH,研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系,以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。

原文链接
本文链接:https://kx.umi6.com/article/19450.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
多项力压 Grok 4、OpenAI o3,谷歌推出 Gemini 2.5 Deep Think 模型
2025-08-01 23:08:15
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
“给 AI 讲故事”就能绕过安全机制,恶意代码编写门槛恐将大幅降低
2025-03-19 23:56:20
美国哥伦比亚大学研究:大语言模型正在变得越来越像人类大脑
2024-12-20 11:27:54
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
阿里蔡崇信:AI 模型训练过程像教育孩子,某些方面学习三四年可达博士水平
2024-06-01 23:35:23
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
LLM总是把简单任务复杂化,Karpathy无语:有些任务无需那么多思考
2025-08-12 11:21:24
GPT-4o 见AV 女优的次数比“您好”还多2.6倍,AI 正在被中文互联网疯狂污染
2025-09-06 12:37:21
UL Solutions 推出 AI 文本生成基准测试,支持英伟达、AMD、英特尔三家显卡
2024-12-11 17:33:56
24小时热文
更多
扫一扫体验小程序