1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:史上最严中文真实性评估:OpenAI o1第1,豆包第2,其它全部不及格

新提出的大语言模型(LLM)评估基准对于跟上大语言模型的快速发展至关重要。近日,淘宝天猫集团的研究者们提出了中文简短问答(Chinese SimpleQA),这是首个全面评估中文真实性能力的基准,涵盖“中文、多样性、高质量、静态、易于评估”五大特性。

研究人员表示,该基准能够帮助开发者更好地理解其模型的中文真实性能力,并促进基础模型的发展。论文地址为:https://arxiv.org/abs/2411.07140。

中文简短问答由3000个高质量问题组成,覆盖从人文到科学工程等六大主题,旨在全面评估现有大语言模型在中文语境下的真实性能力。具体特点如下:

  • 中文特性:专注于中文语言。
  • 多样性:涵盖六大主题,共99个细粒度子主题。
  • 高质量:实施了严格的质量控制流程。
  • 静态性:参考答案不随时间改变。
  • 易于评估:问题和答案都非常简短,便于评分。

研究人员在中文简短问答上评估了40多个大语言模型,发现只有o1-preview和Doubao-pro-32k达到了及格分数(分别为63.8%和61.9%),许多模型仍有改进空间。模型越大,效果越好。使用检索增强生成(RAG)策略可以显著提升模型性能。同时,现有的对齐或后训练策略通常会降低语言模型的真实性。

此外,中文简短问答的排名与SimpleQA有所不同,几个中文大语言模型(如Doubao-pro-32k和GLM-4-Plus)的表现接近o1-preview。特别是“中国文化”主题上,中文社区大语言模型明显优于GPT或o1系列模型。

总之,中文简短问答基准全面评估了大语言模型在中文语境下的真实性能力,揭示了模型在不同子主题上的表现差异,并为进一步提高模型的真实性提供了方向。未来研究将探索提高大语言模型真实性的方法,并考虑扩展至多语言和多模态设置。

原文链接
本文链接:https://kx.umi6.com/article/9073.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
2024-11-21 14:34:25
自诩无所不知的大模型,能否拯救笨手笨脚的机器人?
2025-05-06 09:49:31
顶级AI认知能力输给老年人,大模型集体翻车
2025-01-13 09:55:05
压缩算法为大语言模型“瘦身”
2024-11-22 08:57:50
美国哥伦比亚大学研究:大语言模型正在变得越来越像人类大脑
2024-12-20 11:27:54
小红书怎么一夜成为全世界网友都爱的翻译软件?
2025-01-20 21:24:11
全球AI顶会 NeurIPS 2024温哥华开幕,中国校企上百篇论文被收录
2024-12-11 16:36:37
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
图灵奖得主杨立昆:大语言模型发展已接近瓶颈,AI 仅靠文本训练无法实现人类级智能
2025-03-23 23:28:58
从蛰伏到王炸,RL启示录
2025-03-31 14:32:31
蔡恒进:具备独立思考与问题解决能力的AI才是未来发展方向|直击2024外滩大会
2024-09-05 19:39:46
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
AI模拟社会的“幕后”操控者是谁?
2025-01-21 14:39:42
24小时热文
更多
扫一扫体验小程序