1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:多样任务真实数据,大模型在线购物基准Shopping MMLU开源|NeurIPS&KDD Cup 2024

谁是在线购物领域最强大的模型?现在有了评测基准。

基于真实在线购物数据,电商巨头亚马逊联合香港科技大学和圣母大学构建了一个大规模、多任务评测基准Shopping MMLU,用以评估大语言模型在在线购物领域的能力和潜力。

在线购物涉及多任务性、少样本性等复杂问题。大语言模型如GPT、T5、LLaMA等已展现出强大的多任务和少样本学习能力,因此有望在在线购物领域广泛应用。为此,Shopping MMLU应运而生,它覆盖了更多能力和任务,包括在线购物概念理解、在线购物知识推理、用户行为理解和多语言能力。

Shopping MMLU基于真实的亚马逊在线购物数据,并经过人工检验,确保数据质量。研究选取了27个主流大语言模型进行实验,包括闭源模型、开源通用领域模型和开源特定领域模型。结果显示,虽然闭源模型仍处于领先地位,但开源模型已接近闭源模型的性能,特定领域模型的表现并不突出,证明Shopping MMLU具有较高难度。

基于Shopping MMLU的研究还发现,不同任务间的得分高度相关,表明大语言模型可以通过整体性建模来提升能力。同时,通用能力的强弱对特定领域任务表现影响显著。此外,特定领域的微调可能会影响模型的通用能力,从而影响其在特定领域的表现。

Shopping MMLU及其资源已全部开源并持续维护,方便研究人员和开发者进行深入探索和应用。官方还建立了排行榜,欢迎新模型加入。

Shopping MMLU的推出为在线购物领域的大语言模型评估提供了一个标准化、全面的评测体系。

原文链接
本文链接:https://kx.umi6.com/article/8995.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
B站亮相 2024 世界人工智能大会,首次展出自研大语言模型
2024-07-05 20:57:56
AI模拟社会的“幕后”操控者是谁?
2025-01-21 14:39:42
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
万字梳理:揭秘 DeepSeek 中的 RL 与 AGI 下一步丨AIR 2025
2025-03-08 11:48:22
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
模型知识蒸馏新SOTA!告别传统散度蒸馏|腾讯优图&中科大出品
2024-12-03 16:18:53
AI 意识更进一步!谷歌 DeepMind 等:LLM 不仅能感受痛苦还能趋利避害
2025-02-10 13:12:02
原微软WizardLM项目团队加入腾讯混元
2025-05-14 15:18:55
压缩算法为大语言模型“瘦身”
2024-11-22 08:57:50
科大讯飞将在港投资 4 亿港元,专注大语言模型等开发;英伟达 Mistral AI 联手发布 12B 参数小模型丨AI情报局
2024-07-22 12:10:41
495篇参考文献!北交大清华等高校发布多语言大模型综述
2025-01-17 10:12:14
美团CEO王兴:将继续加大投资开发大语言模型
2025-05-26 21:54:46
《自然》杂志研究:AI 追踪他人心理状态能力与人类相当或超越人类
2024-05-27 09:13:10
24小时热文
更多
扫一扫体验小程序