1
免责声明:Al优秘圈所有资讯仅代表作者个人观点,不构成任何投资理财建议。请确保访问网址为(kx.umi6.com) 投诉及建议

标题:GPT-oss的奇怪行为:无提示生成编程问题并重复求解

正文:
GPT-oss最近表现出令人惊讶的“幻觉”行为。在没有提示的情况下,它凭空生成了一个复杂的多米诺骨牌编程问题,并消耗超过30,000个token反复求解了5000多次。该问题涉及在NxM网格中放置一个多米诺骨牌后,判断剩余区域是否能分割成多个2×2方块。这种行为表明模型可能被过度优化于特定推理任务,导致生成内容缺乏自然性。

进一步分析显示,GPT-oss的训练数据广泛覆盖了多种编程语言,尤其偏重数学和代码领域。即使无需推理,它也会主动进行复杂计算,生成的内容大多围绕数学且以英语表达。此外,模型在推理过程中常伴随语言转换,从英语切换到阿拉伯语、俄语等多种语言,甚至出现一种非自然语言的“Neuralese”状态。

研究还发现,模型输出中夹杂特殊伪影(如“OCRV ROOT”),可能是训练数据通过OCR技术处理时留下的错误痕迹。类似地,模型有时会提到无关内容(如马来西亚聋人数量),推测与训练数据瑕疵有关。尽管如此,GPT-oss也展现出一定的创意能力,例如为挪威剧本撰写草稿或熟练使用Unicode字符。

然而,GPT-oss在其他领域的表现并不理想。官方数据显示,其幻觉率高达49%-53%,常生成不存在的理论或陷入无效推理循环。例如,它曾花费2小时尝试生成一个满足特定条件的3×3字母矩阵,却始终无法完成任务。此外,当谈论日常生活琐事时,它偶尔会拒绝回答或直接崩溃。

研究者已将相关数据公开,建议通过去重和对比不同模型输出来深入理解其机制。这些异常现象揭示了GPT-oss在训练目标和数据处理上的复杂性,同时也提醒我们关注其局限性。

参考链接:
[1] https://x.com/jxmnop/status/1953899426075816164
[2] https://news.ycombinator.com/item?id=44850260
[3] https://huggingface.co/datasets/jxm/GPT-oss20b-samples

原文链接
本文链接:https://kx.umi6.com/article/23378.html
转载请注明文章出处
分享至
打开微信扫一扫
内容投诉
生成图片
相关推荐
换一换
OpenAI 推出两款开源模型 gpt-oss-120b / 20b,性能逼近 o4-mini/o3-mini
2025-08-06 08:23:05
OpenAI发布开源模型“王者归来”,DeepSeek剧情会反转吗
2025-08-06 12:31:08
刚刚,OpenAI发布2款开源模型,手机笔记本也能跑,北大校友扛大旗
2025-08-06 07:23:51
OpenAI进入新品发布周期 开源模型GPT-OSS打头阵
2025-08-06 08:26:35
GPT-oss太离谱:无提示自行想象编程问题,还重复求解5000次
2025-08-11 17:05:27
OpenAI重返开源大模型赛道,谈一谈我关注的一些要点
2025-08-06 15:38:28
AMD、高通宣布旗下硬件支持 OpenAI gpt-oss 开放推理模型
2025-08-06 14:32:11
搞定这三个任务?人类不行,AI也不行
2024-07-22 22:39:05
重磅应用密集上线,同时“硬刚”谷歌、亚马逊和Meta,OpenAI急了?今年要“烧”85亿美元
2025-10-22 21:52:10
大模型推理学习新范式!ExGRPO框架:从盲目刷题到聪明复盘
2025-10-23 17:10:54
百川发布循证增强大模型 M2 Plus,号称“医生版 ChatGPT”
2025-10-22 14:45:56
LiblibAI完成1.3亿美元B轮融资 为中国AI应用今年最大融资
2025-10-22 22:54:13
华尔街初级银行家瑟瑟发抖 OpenAI秘密项目将涉足投行业务
2025-10-22 15:47:47
24小时热文
更多
扫一扫体验小程序