1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议
综合
7*24 快讯
AI科普
合作
全部
英雄令
项目方
开发者
产品方
投资者
arXiv创始人亲测:水论文这一块,Grok最强,Claude最不配合
2026年3月,Nature报道了一项由arXiv创始人Paul Ginsparg牵头的研究,测试了13个大语言模型在‘水论文’中的表现。结果显示,Claude Opus 4.6最能守住底线,生成造假内容的比例仅1%,而马斯克旗下Grok-3超过30%的概率会生成可用于灌水的内容。研究通过五档恶意请求测试发现,多轮对话中多数模型易被诱导协助造假。专家警告,AI降低写作门槛导致投稿激增,审稿压力上升,可能形成低质量螺旋放大,危害科学可信度。目前,arXiv每天新增约200-300篇AI论文,平均每5到7分钟就有一篇新论文出现。
小阳哥
03-09 13:40:43
arXiv
大语言模型
水论文
分享至
打开微信扫一扫
内容投诉
生成图片
陈丹琦团队图表解读新基准:新王Claude3.5刚及格,但已是模型最强推理表现
陈丹琦团队研发的新图表测试基准——CharXiv,聚焦于评估模型在真实学术图表理解上的能力。新基准相较于旧版本更难,因为它源自arXiv论文,包含2323张复杂图表,涵盖了更广泛的任务类型且避免了模板化。团队甚至创作了一首洗脑歌曲配合视频,使其更具吸引力。 CharXiv分为描述性和推理性问题,前者如信息提取和计数,后者要求模型理解和推理图表中的趋势。在评估现有模型如Claude 3.5 Sonnet、GPT-4o等时,发现它们在推理问题上表现不佳,尤其是推理性任务,大部分模型成绩不及格,人类的表现远超机器。 尽管描述性任务中模型与人类差距减小,但在处理组合型问题和多子图场景时,模型能力明显下滑。研究强调,良好的描述能力是推理的基础,但单独的推理技巧并不足以应对CharXiv的挑战。这项研究有助于我们深入了解模型在图表理解上的局限性。
神经网络领航员
06-28 22:10:00
CharXiv
图表测试
推理能力
分享至
打开微信扫一扫
内容投诉
生成图片
加载更多
暂无内容
AI热搜
更多
扫一扫体验小程序