27个大模型混战电商领域，DeepSeek-R1&V3仍是最强

2025-03-15 23:19:30

跨界思维

发布在

科普

阅读：974

27个大模型混战电商领域，DeepSeek-R1&V3仍是最强

首个聚焦电商基础概念的可扩展问答基准ChineseEcomQA发布，由淘天集团推出。传统基准难以兼顾电商任务多样性和领域特殊性，而大模型常因生成事实性错误信息受限制。ChineseEcomQA针对性设计三大核心：基础概念覆盖（20大行业、10类核心电商概念）、混合数据构建（LLM生成、RAG与人工标注结合）、平衡评估维度（行业通用性与专业性兼顾）。最终形成1800组高质量问答对，覆盖10大电商子概念。

评估显示，DeepSeek-R1和V3表现最优，展现了强大推理能力。研究发现，大模型在高级电商概念上有优势，但小模型在特定任务上仍有挑战。中文社区模型在电商场景适应性上表现突出，RAG策略显著提升模型性能，缩小性能差距。多数模型存在过度自信问题，需改进校准能力。Reasoning LLM需警惕“思维链中的事实性错误累积”，尤其是蒸馏模型。

ChineseEcomQA团队探索了模型校准、RAG及推理模型思维过程等课题。论文作者来自淘天集团未来生活实验室，团队将持续更新数据集与评测榜单，欢迎研究者使用。论文、代码及数据集已公开。

原文链接

本文链接：https://kx.umi6.com/article/15512.html

转载请注明文章出处

ChineseEcomQA