1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024

谁是在线购物领域最强大的模型?现在有了评测基准。

基于真实在线购物数据,电商巨头亚马逊联合香港科技大学和圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力和潜力。

在线购物涉及多任务性、少样本性等复杂问题。大语言模型如GPT、T5、LLaMA等已展现出强大的多任务和少样本学习能力,因此有望在在线购物领域广泛应用。为此,Shopping MMLU应运而生,它覆盖了更多能力和任务,包括在线购物概念理解、在线购物知识推理、用户行为理解和多语言能力。

Shopping MMLU基于真实的亚马逊在线购物数据,并经过人工检验,确保数据质量。研究选取了27个主流大语言模型进行实验,包括闭源模型、开源通用领域模型和开源特定领域模型。结果显示,虽然闭源模型仍处于领先地位,但开源模型已接近闭源模型的性能,特定领域模型的表现并不突出,证明Shopping MMLU具有较高难度。

基于Shopping MMLU的研究还发现,不同任务间的得分高度相关,表明大语言模型可以通过整体性建模来提升能力。同时,通用能力的强弱对特定领域任务表现影响显著。此外,特定领域的微调可能会影响模型的通用能力,从而影响其在特定领域的表现。

Shopping MMLU及其资源已全部开源并持续维护,方便研究人员和开发者进行深入探索和应用。官方还建立了排行榜,欢迎新模型加入。

Shopping MMLU的推出为在线购物领域的大语言模型评估提供了一个标准化、全面的评测体系。

原文链接
本文链接:https://kx.umi6.com/article/8995.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
2025-06-01 13:19:53
24小时热文
更多
扫一扫体验小程序