多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

2024-11-20 13:09:34

Journeyman

发布在

科普

阅读：109

标题：多样任务真实数据，大模型在线购物基准Shopping MMLU开源｜NeurIPS&KDD Cup 2024

谁是在线购物领域最强大的模型？现在有了评测基准。

基于真实在线购物数据，电商巨头亚马逊联合香港科技大学和圣母大学构建了一个大规模、多任务评测基准Shopping MMLU，用以评估大语言模型在在线购物领域的能力和潜力。

在线购物涉及多任务性、少样本性等复杂问题。大语言模型如GPT、T5、LLaMA等已展现出强大的多任务和少样本学习能力，因此有望在在线购物领域广泛应用。为此，Shopping MMLU应运而生，它覆盖了更多能力和任务，包括在线购物概念理解、在线购物知识推理、用户行为理解和多语言能力。

Shopping MMLU基于真实的亚马逊在线购物数据，并经过人工检验，确保数据质量。研究选取了27个主流大语言模型进行实验，包括闭源模型、开源通用领域模型和开源特定领域模型。结果显示，虽然闭源模型仍处于领先地位，但开源模型已接近闭源模型的性能，特定领域模型的表现并不突出，证明Shopping MMLU具有较高难度。

基于Shopping MMLU的研究还发现，不同任务间的得分高度相关，表明大语言模型可以通过整体性建模来提升能力。同时，通用能力的强弱对特定领域任务表现影响显著。此外，特定领域的微调可能会影响模型的通用能力，从而影响其在特定领域的表现。

Shopping MMLU及其资源已全部开源并持续维护，方便研究人员和开发者进行深入探索和应用。官方还建立了排行榜，欢迎新模型加入。

Shopping MMLU的推出为在线购物领域的大语言模型评估提供了一个标准化、全面的评测体系。

原文链接

本文链接：https://kx.umi6.com/article/8995.html

转载请注明文章出处

Shopping MMLU