1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:史上最严中文真实性评估:OpenAI o1第1,豆包第2,其它全部不及格

新提出的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面评估中文真实性能力的基准,涵盖“中文、多样性、高质量、静态、易于评估”五大特性。

研究人员表示,该基准能够帮助开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展。论文地址为:https://arxiv.org/abs/2411.07140。

中文简短问答由3000个高质量问题组成,覆盖从人文到科学工程等六大主题,旨在全面评估现有大语言模型在中文语境下的真实性能力。具体特点如下:

  • 中文特性:专注于中文语言。
  • 多样性:涵盖六大主题,共99个细粒度子主题。
  • 高质量:实施了严格的质量控制流程。
  • 静态性:参考答案不随时间改变。
  • 易于评估:问题和答案都非常简短,便于评分。

研究人员在中文简短问答上评估了40多个大语言模型,发现只有o1-preview和Doubao-pro-32k达到了及格分数(分别为63.8%和61.9%),许多模型仍有改进空间。模型越大,效果越好。使用检索增强生成(RAG)策略可以显著提升模型性能。同时,现有的对齐或后训练策略通常会降低语言模型的真实性。

此外,中文简短问答的排名与SimpleQA有所不同,几个中文大语言模型(如Doubao-pro-32k和GLM-4-Plus)的表现接近o1-preview。特别是“中国文化”主题上,中文社区大语言模型明显优于GPT或o1系列模型。

总之,中文简短问答基准全面评估了大语言模型在中文语境下的真实性能力,揭示了模型在不同子主题上的表现差异,并为进一步提高模型的真实性提供了方向。未来研究将探索提高大语言模型真实性的方法,并考虑扩展至多语言和多模态设置。

原文链接
本文链接:https://kx.umi6.com/article/9073.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
我被AI骗了
2025-02-27 14:24:34
蔡恒进:具备独立思考与问题解决能力的AI才是未来发展方向|直击2024外滩大会
2024-09-05 19:39:46
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
下一代 RAG 技术来了,微软正式开源 GraphRAG:大模型行业将迎来新的升级?
2024-07-04 18:52:32
启明创投发布2024生成式AI十大展望
2024-07-07 23:11:55
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
英伟达推出 NIM AI 护栏服务,防止模型遭用户“越狱”
2025-01-18 23:40:43
AI竞技场,归根到底只是一门生意
2025-08-06 15:37:54
压缩算法为大语言模型“瘦身”
2024-11-22 08:57:50
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
AI教父Hinton中国首次演讲实录:人类可能就是大语言模型
2025-07-26 17:44:18
应该如何打造人工智能产品?
2024-06-15 08:48:21
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
24小时热文
更多
扫一扫体验小程序