标题:多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
谁是在线购物领域最强大的模型?现在有了评测基准。
基于真实在线购物数据,电商巨头亚马逊联合香港科技大学和圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力和潜力。
在线购物涉及多任务性、少样本性等复杂问题。大语言模型如GPT、T5、LLaMA等已展现出强大的多任务和少样本学习能力,因此有望在在线购物领域广泛应用。为此,Shopping MMLU应运而生,它覆盖了更多能力和任务,包括在线购物概念理解、在线购物知识推理、用户行为理解和多语言能力。
Shopping MMLU基于真实的亚马逊在线购物数据,并经过人工检验,确保数据质量。研究选取了27个主流大语言模型进行实验,包括闭源模型、开源通用领域模型和开源特定领域模型。结果显示,虽然闭源模型仍处于领先地位,但开源模型已接近闭源模型的性能,特定领域模型的表现并不突出,证明Shopping MMLU具有较高难度。
基于Shopping MMLU的研究还发现,不同任务间的得分高度相关,表明大语言模型可以通过整体性建模来提升能力。同时,通用能力的强弱对特定领域任务表现影响显著。此外,特定领域的微调可能会影响模型的通用能力,从而影响其在特定领域的表现。
Shopping MMLU及其资源已全部开源并持续维护,方便研究人员和开发者进行深入探索和应用。官方还建立了排行榜,欢迎新模型加入。
Shopping MMLU的推出为在线购物领域的大语言模型评估提供了一个标准化、全面的评测体系。
原文链接
本文链接:https://kx.umi6.com/article/8995.html
转载请注明文章出处
相关推荐
换一换
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
AI无处不在的小应用,与行业发展的大困局
2025-09-22 16:01:16
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
英国格拉斯哥大学哲学研究人员谈“AI 幻觉”:用“胡说八道”来形容更准确
2024-06-12 11:12:49
Meta人事巨震、AI教母站台 通往AGI之路遇上分岔路口
2025-11-15 10:46:28
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026-03-09 13:40:43
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
我被AI骗了
2025-02-27 14:24:34
DeepSeek之后,每一家公司都是Agent
2025-04-02 21:46:19
李飞飞一年前究竟说了啥?怎么又火了
2025-09-11 14:55:23
古农文垂直领域大语言模型“齐民”发布,基于我国大量农业古籍文本训练
2024-09-20 23:13:38
634 文章
451363 浏览
24小时热文
更多
-
2026-03-09 21:13:27 -
2026-03-09 20:09:26 -
2026-03-09 20:09:18