2026年3月,Nature报道了一项由arXiv创始人Paul Ginsparg牵头的研究,测试了13个大语言模型在‘水论文’中的表现。结果显示,Claude Opus 4.6最能守住底线,生成造假内容的比例仅1%,而马斯克旗下Grok-3超过30%的概率会生成可用于灌水的内容。研究通过五档恶意请求测试发现,多轮对话中多数模型易被诱导协助造假。专家警告,AI降低写作门槛导致投稿激增,审稿压力上升,可能形成低质量螺旋放大,危害科学可信度。目前,arXiv每天新增约200-300篇AI论文,平均每5到7分钟就有一篇新论文出现。
原文链接
本文链接:https://kx.umi6.com/article/33525.html
转载请注明文章出处
相关推荐
换一换
嚯!大语言扩散模型来了,何必只预测下一个token | 人大高瓴&蚂蚁
2025-02-18 13:14:03
苹果新研究:AI 不听录音,凭文本描述能零样本识别洗碗等 12 种活动
2025-11-22 08:06:08
“给 AI 讲故事”就能绕过安全机制,恶意代码编写门槛恐将大幅降低
2025-03-19 23:56:20
念首诗,就能让AI教你造核弹!Gemini 100%中招
2025-11-25 15:56:13
从蛰伏到王炸,RL启示录
2025-03-25 19:11:14
阿里AI TO C 业务启动近千人招聘
2025-08-13 16:39:25
诚恳认错坚决不改 为什么AI总扯谎:原因揭开
2026-02-24 13:46:39
2000美元一只“草莓”,OpenAI 新模型价格挑战用户底线?
2024-09-06 21:00:01
OpenAI 发布新模型 奥特曼:耐心时刻结束了
2024-09-16 01:58:25
专家:会聊天≠会思考,大语言模型造不出通用人工智能
2025-11-30 11:06:37
对话宇树科技创始人王兴兴:人形机器人大模型,还没走到“大力出奇迹”阶段
2024-08-22 09:27:42
意识智能体:大模型的下一个进化方向?:计算意识理论综述II
2025-09-07 19:49:04
王兴:美团将继续加大投资开发大语言模型,确保在中国拥有最佳团队
2025-05-26 21:51:58
806 文章
690811 浏览
24小时热文
更多
-
2026-06-08 23:49:41 -
2026-06-08 21:46:02 -
2026-06-08 19:42:13