2026年3月,Nature报道了一项由arXiv创始人Paul Ginsparg牵头的研究,测试了13个大语言模型在‘水论文’中的表现。结果显示,Claude Opus 4.6最能守住底线,生成造假内容的比例仅1%,而马斯克旗下Grok-3超过30%的概率会生成可用于灌水的内容。研究通过五档恶意请求测试发现,多轮对话中多数模型易被诱导协助造假。专家警告,AI降低写作门槛导致投稿激增,审稿压力上升,可能形成低质量螺旋放大,危害科学可信度。目前,arXiv每天新增约200-300篇AI论文,平均每5到7分钟就有一篇新论文出现。
原文链接
本文链接:https://kx.umi6.com/article/33525.html
转载请注明文章出处
相关推荐
换一换
为什么大语言模型没能“杀死”心理学?
2024-09-11 21:34:06
OpenAI 被曝正开发全新 AI 大语言模型:代号“大蒜”,性能超越谷歌 Gemini 3
2025-12-03 00:43:57
中国科大新成果入选 ICLR 2025:特定领域仅用 5% 训练数据,知识准确率提升 14%
2025-04-07 13:58:54
英国格拉斯哥大学哲学研究人员谈“AI 幻觉”:用“胡说八道”来形容更准确
2024-06-12 11:12:49
史上最严中文真实性评估:OpenAI o1第1豆包第2,其它全部不及格
2024-11-21 14:34:25
GPT-5变蠢背后:抑制AI的幻觉,反而让模型没用了?
2025-08-23 07:59:01
诚恳认错坚决不改 为什么AI总扯谎:原因揭开
2026-02-24 13:46:39
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
讲座预约 | AI4S 的前世今生:大语言模型与提示学习在科技研发中的应用与潜力丨GAIR Live
2024-09-12 09:43:52
DeepSeek使用技巧,你收藏这一篇就够了
2025-02-07 21:09:11
李飞飞一年前究竟说了啥?怎么又火了
2025-09-11 14:55:23
DeepSeek之后,每一家公司都是Agent
2025-04-02 21:46:19
B站亮相 2024 世界人工智能大会,首次展出自研大语言模型
2024-07-05 20:57:56
775 文章
600946 浏览
24小时热文
更多
-
2026-04-24 15:20:44 -
2026-04-24 15:19:39 -
2026-04-24 15:18:33