1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传

你是否曾对大语言模型(LLMs)下达过明确的“长度指令”?比如,“写一篇10,000字的长文”。看似简单的要求,实际却让模型“力不从心”:要么生成不足,要么重复啰嗦,甚至直接罢工。

最新研究论文《LIFEBENCH: Evaluating Length Instruction Following in Large Language Models》提出了一套名为LIFEBENCH的新基准测试集,评估大模型在长度指令遵循上的表现。研究发现,这些模型在长文本生成任务中表现不佳,尤其是“等于”长度指令下,多数模型评分低于60分。

LIFEBENCH由三部分组成:多样化的任务与语言、全面的长度范围和创新的评测指标。研究团队测试了26个主流模型,结果显示长文本生成是最大挑战,大多数模型评分低于40分。此外,模型在中文任务中的表现普遍逊于英文任务,并出现“过度生成”现象。

研究还指出,大部分模型夸大了其最大输出长度,只有少数模型能接近实际能力。模型面临三大瓶颈:缺乏长度感知能力、对输入长度敏感以及懒惰生成策略。此外,动态校准虽在短文本任务中有效,但在长文本场景中效率低下。

通过LIFEBENCH,研究揭示了模型在长文本生成中的质量问题、格式化输出的挑战以及EoS信号的提前终止现象。未来需优化训练策略和评估体系,以提升模型对长度指令的执行能力。相关资源包括GitHub仓库和Hugging Face链接。

原文链接
本文链接:https://kx.umi6.com/article/19450.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
中国信通院牵头的大模型基准测试ITU国际标准正式发布
2025-04-11 14:56:48
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
拒绝“熵崩塌”和“熵爆炸”!这项研究让大模型推理成绩飙升
2025-10-13 18:02:32
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
AI无处不在的小应用,与行业发展的大困局
2025-09-22 16:01:16
当 AI 下场炒 A 股,「推理」成了新的直觉
2025-10-28 12:51:59
建议你不要再相信AI基准测试,排行榜已经没啥公信力了
2025-12-04 12:18:33
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
科学家发现多数大语言模型测试标准存在缺陷,无法客观给出评分
2025-11-08 21:59:46
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
从归因图到AI 的“生物学”:探索Claude3.5 Haiku 的内部机制“中”
2025-06-01 15:22:01
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
大语言模型会推理吗?
2024-11-13 11:33:40
24小时热文
更多
扫一扫体验小程序