标题:多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024
谁是在线购物领域最强大的模型?现在有了评测基准。
基于真实在线购物数据,电商巨头亚马逊联合香港科技大学和圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力和潜力。
在线购物涉及多任务性、少样本性等复杂问题。大语言模型如GPT、T5、LLaMA等已展现出强大的多任务和少样本学习能力,因此有望在在线购物领域广泛应用。为此,Shopping MMLU应运而生,它覆盖了更多能力和任务,包括在线购物概念理解、在线购物知识推理、用户行为理解和多语言能力。
Shopping MMLU基于真实的亚马逊在线购物数据,并经过人工检验,确保数据质量。研究选取了27个主流大语言模型进行实验,包括闭源模型、开源通用领域模型和开源特定领域模型。结果显示,虽然闭源模型仍处于领先地位,但开源模型已接近闭源模型的性能,特定领域模型的表现并不突出,证明Shopping MMLU具有较高难度。
基于Shopping MMLU的研究还发现,不同任务间的得分高度相关,表明大语言模型可以通过整体性建模来提升能力。同时,通用能力的强弱对特定领域任务表现影响显著。此外,特定领域的微调可能会影响模型的通用能力,从而影响其在特定领域的表现。
Shopping MMLU及其资源已全部开源并持续维护,方便研究人员和开发者进行深入探索和应用。官方还建立了排行榜,欢迎新模型加入。
Shopping MMLU的推出为在线购物领域的大语言模型评估提供了一个标准化、全面的评测体系。
原文链接
本文链接:https://kx.umi6.com/article/8995.html
转载请注明文章出处
相关推荐
换一换
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
为什么大语言模型没能“杀死”心理学?
2024-09-11 21:34:06
科大讯飞将在港投资 4 亿港元,专注大语言模型等开发;英伟达 Mistral AI 联手发布 12B 参数小模型丨AI情报局
2024-07-22 12:10:41
模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
2024-12-03 16:18:53
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
UC 伯克利等最新研究:大语言模型就是比人类啰嗦,“提问的艺术”仍难参透
2025-01-30 20:35:59
罗永浩重返科技行业:AI智能助理J1 Assistant上线
2025-01-05 19:57:49
全球AI顶会 NeurIPS 2024温哥华开幕,中国校企上百篇论文被收录
2024-12-11 16:36:37
警惕AI大模型的“共情鸿沟”,剑桥团队呼吁:我们需要“儿童安全人工智能”框架
2024-07-11 15:47:39
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
Salesforce 首席执行官:大语言模型可能已接近技术上限,AI 的未来是智能体
2024-11-25 10:07:47
用LLM一键生成百万级领域知识图谱!中科大新框架入选ACL 2024
2024-11-11 16:54:43
529 文章
260178 浏览
24小时热文
更多
-
2025-10-25 18:38:20 -
2025-10-25 18:37:15 -
2025-10-25 16:32:54