1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:史上最严中文真实性评估:OpenAI o1第1,豆包第2,其它全部不及格

新提出的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面评估中文真实性能力的基准,涵盖“中文、多样性、高质量、静态、易于评估”五大特性。

研究人员表示,该基准能够帮助开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展。论文地址为:https://arxiv.org/abs/2411.07140。

中文简短问答由3000个高质量问题组成,覆盖从人文到科学工程等六大主题,旨在全面评估现有大语言模型在中文语境下的真实性能力。具体特点如下:

  • 中文特性:专注于中文语言。
  • 多样性:涵盖六大主题,共99个细粒度子主题。
  • 高质量:实施了严格的质量控制流程。
  • 静态性:参考答案不随时间改变。
  • 易于评估:问题和答案都非常简短,便于评分。

研究人员在中文简短问答上评估了40多个大语言模型,发现只有o1-preview和Doubao-pro-32k达到了及格分数(分别为63.8%和61.9%),许多模型仍有改进空间。模型越大,效果越好。使用检索增强生成(RAG)策略可以显著提升模型性能。同时,现有的对齐或后训练策略通常会降低语言模型的真实性。

此外,中文简短问答的排名与SimpleQA有所不同,几个中文大语言模型(如Doubao-pro-32k和GLM-4-Plus)的表现接近o1-preview。特别是“中国文化”主题上,中文社区大语言模型明显优于GPT或o1系列模型。

总之,中文简短问答基准全面评估了大语言模型在中文语境下的真实性能力,揭示了模型在不同子主题上的表现差异,并为进一步提高模型的真实性提供了方向。未来研究将探索提高大语言模型真实性的方法,并考虑扩展至多语言和多模态设置。

原文链接
本文链接:https://kx.umi6.com/article/9073.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
Meta前高管警告:AI市场大概率会有一波调整
2025-10-16 20:00:09
B站亮相 2024 世界人工智能大会,首次展出自研大语言模型
2024-07-05 20:57:56
挑战强化学习后训练霸权!全新无监督方法仅需1条数据+10步优化
2025-06-01 13:22:14
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
基准测试揭秘大模型“字数危机”:26个模型长文本生成普遍拉胯,最大输出长度过度宣传
2025-05-29 15:34:10
攻略在手,轻松玩转 DeepSeek
2025-02-08 21:33:12
苹果创新“清单法”:用 AI 大模型当“老师”,教小模型更精准执行复杂指令
2025-08-26 07:38:55
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
阿里蔡崇信:AI 模型训练过程像教育孩子,某些方面学习三四年可达博士水平
2024-06-01 23:35:23
deepseek关联公司公布大语言模型部署方法专利
2025-08-01 14:04:10
腾讯公布大语言模型训练专利 可提高模型准确性
2025-02-08 14:29:56
“学术剽窃”定义正被AI模糊,我们该如何应对?
2024-08-01 21:09:52
Mamba核心作者新作:取代DeepSeek在用的注意力机制,专为推理打造
2025-06-01 13:19:53
24小时热文
更多
扫一扫体验小程序