1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-oss的奇怪行为:无提示生成编程问题并重复求解

正文:
GPT-oss最近表现出令人惊讶的“幻觉”行为。在没有提示的情况下,它凭空生成了一个复杂的多米诺骨牌编程问题,并消耗超过30,000个token反复求解了5000多次。该问题涉及在NxM网格中放置一个多米诺骨牌后,判断剩余区域是否能分割成多个2×2方块。这种行为表明模型可能被过度优化于特定推理任务,导致生成内容缺乏自然性。

进一步分析显示,GPT-oss的训练数据广泛覆盖了多种编程语言,尤其偏重数学和代码领域。即使无需推理,它也会主动进行复杂计算,生成的内容大多围绕数学且以英语表达。此外,模型在推理过程中常伴随语言转换,从英语切换到阿拉伯语、俄语等多种语言,甚至出现一种非自然语言的“Neuralese”状态。

研究还发现,模型输出中夹杂特殊伪影(如“OCRV ROOT”),可能是训练数据通过OCR技术处理时留下的错误痕迹。类似地,模型有时会提到无关内容(如马来西亚聋人数量),推测与训练数据瑕疵有关。尽管如此,GPT-oss也展现出一定的创意能力,例如为挪威剧本撰写草稿或熟练使用Unicode字符。

然而,GPT-oss在其他领域的表现并不理想。官方数据显示,其幻觉率高达49%-53%,常生成不存在的理论或陷入无效推理循环。例如,它曾花费2小时尝试生成一个满足特定条件的3×3字母矩阵,却始终无法完成任务。此外,当谈论日常生活琐事时,它偶尔会拒绝回答或直接崩溃。

研究者已将相关数据公开,建议通过去重和对比不同模型输出来深入理解其机制。这些异常现象揭示了GPT-oss在训练目标和数据处理上的复杂性,同时也提醒我们关注其局限性。

参考链接:
[1] https://x.com/jxmnop/status/1953899426075816164
[2] https://news.ycombinator.com/item?id=44850260
[3] https://huggingface.co/datasets/jxm/GPT-oss20b-samples

原文链接
本文链接:https://kx.umi6.com/article/23378.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次
2025-08-11 17:05:27
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
OpenAI 推出两款开源模型 gpt-oss-120b / 20b,性能逼近 o4-mini/o3-mini
2025-08-06 08:23:05
搞定这三个任务?人类不行,AI也不行
2024-07-22 22:39:05
刚刚,OpenAI发布2款开源模型,手机笔记本也能跑,北大校友扛大旗
2025-08-06 07:23:51
OpenAI进入新品发布周期 开源模型GPT-OSS打头阵
2025-08-06 08:26:35
AMD、高通宣布旗下硬件支持 OpenAI gpt-oss 开放推理模型
2025-08-06 14:32:11
OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
2025-08-06 15:38:28
奥特曼曝惊世预言:2035年GPT-8治愈癌症!人类将为算力爆发三战
2025-08-10 23:51:58
阿里发布通义 Wan2.2-I2V-Flash 模型:推理速度比 Wan2.1 提升 12 倍,图生视频更轻快
2025-08-11 16:07:50
奥尔特曼听劝:OpenAI 将提升订阅用户推理配额,恢复 GPT-4o 等旧模型
2025-08-11 07:56:08
中信建投:GPT-5发布与华为CANN开源有望带动AI应用发展
2025-08-11 09:00:14
关于 AI Infra 的一切
2025-08-11 19:08:22
24小时热文
更多
扫一扫体验小程序