史上最严中文真实性评估：OpenAI o1第1豆包第2，其它全部不及格

2024-11-21 14:34:25

智慧轨迹

发布在

科普

阅读：313

标题：史上最严中文真实性评估：OpenAI o1第1，豆包第2，其它全部不及格

新提出的大语言模型（LLM）评估基准对于跟上大语言模型的快速发展至关重要。近日，淘宝天猫集团的研究者们提出了中文简短问答（Chinese SimpleQA），这是首个全面评估中文真实性能力的基准，涵盖“中文、多样性、高质量、静态、易于评估”五大特性。

研究人员表示，该基准能够帮助开发者更好地理解其模型的中文真实性能力，并促进基础模型的发展。论文地址为：https://arxiv.org/abs/2411.07140。

中文简短问答由3000个高质量问题组成，覆盖从人文到科学工程等六大主题，旨在全面评估现有大语言模型在中文语境下的真实性能力。具体特点如下：

中文特性：专注于中文语言。
多样性：涵盖六大主题，共99个细粒度子主题。
高质量：实施了严格的质量控制流程。
静态性：参考答案不随时间改变。
易于评估：问题和答案都非常简短，便于评分。

研究人员在中文简短问答上评估了40多个大语言模型，发现只有o1-preview和Doubao-pro-32k达到了及格分数（分别为63.8%和61.9%），许多模型仍有改进空间。模型越大，效果越好。使用检索增强生成（RAG）策略可以显著提升模型性能。同时，现有的对齐或后训练策略通常会降低语言模型的真实性。

此外，中文简短问答的排名与SimpleQA有所不同，几个中文大语言模型（如Doubao-pro-32k和GLM-4-Plus）的表现接近o1-preview。特别是“中国文化”主题上，中文社区大语言模型明显优于GPT或o1系列模型。

总之，中文简短问答基准全面评估了大语言模型在中文语境下的真实性能力，揭示了模型在不同子主题上的表现差异，并为进一步提高模型的真实性提供了方向。未来研究将探索提高大语言模型真实性的方法，并考虑扩展至多语言和多模态设置。

原文链接

本文链接：https://kx.umi6.com/article/9073.html

转载请注明文章出处

中文简短问答