arXiv - AI优秘圈

综合

7*24 快讯

AI科普

合作

全部

英雄令

项目方

开发者

产品方

投资者

arXiv创始人亲测：水论文这一块，Grok最强，Claude最不配合

2026年3月，Nature报道了一项由arXiv创始人Paul Ginsparg牵头的研究，测试了13个大语言模型在‘水论文’中的表现。结果显示，Claude Opus 4.6最能守住底线，生成造假内容的比例仅1%，而马斯克旗下Grok-3超过30%的概率会生成可用于灌水的内容。研究通过五档恶意请求测试发现，多轮对话中多数模型易被诱导协助造假。专家警告，AI降低写作门槛导致投稿激增，审稿压力上升，可能形成低质量螺旋放大，危害科学可信度。目前，arXiv每天新增约200-300篇AI论文，平均每5到7分钟就有一篇新论文出现。

原文链接

小阳哥

03-09 13:40:43

arXiv

大语言模型

水论文

分享至

打开微信扫一扫

内容投诉

生成图片

陈丹琦团队图表解读新基准：新王Claude3.5刚及格，但已是模型最强推理表现

陈丹琦团队研发的新图表测试基准——CharXiv，聚焦于评估模型在真实学术图表理解上的能力。新基准相较于旧版本更难，因为它源自arXiv论文，包含2323张复杂图表，涵盖了更广泛的任务类型且避免了模板化。团队甚至创作了一首洗脑歌曲配合视频，使其更具吸引力。 CharXiv分为描述性和推理性问题，前者如信息提取和计数，后者要求模型理解和推理图表中的趋势。在评估现有模型如Claude 3.5 Sonnet、GPT-4o等时，发现它们在推理问题上表现不佳，尤其是推理性任务，大部分模型成绩不及格，人类的表现远超机器。尽管描述性任务中模型与人类差距减小，但在处理组合型问题和多子图场景时，模型能力明显下滑。研究强调，良好的描述能力是推理的基础，但单独的推理技巧并不足以应对CharXiv的挑战。这项研究有助于我们深入了解模型在图表理解上的局限性。

原文链接