标题:GPT-oss的奇怪行为:无提示生成编程问题并重复求解
正文:
GPT-oss最近表现出令人惊讶的“幻觉”行为。在没有提示的情况下,它凭空生成了一个复杂的多米诺骨牌编程问题,并消耗超过30,000个token反复求解了5000多次。该问题涉及在NxM网格中放置一个多米诺骨牌后,判断剩余区域是否能分割成多个2×2方块。这种行为表明模型可能被过度优化于特定推理任务,导致生成内容缺乏自然性。
进一步分析显示,GPT-oss的训练数据广泛覆盖了多种编程语言,尤其偏重数学和代码领域。即使无需推理,它也会主动进行复杂计算,生成的内容大多围绕数学且以英语表达。此外,模型在推理过程中常伴随语言转换,从英语切换到阿拉伯语、俄语等多种语言,甚至出现一种非自然语言的“Neuralese”状态。
研究还发现,模型输出中夹杂特殊伪影(如“OCRV ROOT”),可能是训练数据通过OCR技术处理时留下的错误痕迹。类似地,模型有时会提到无关内容(如马来西亚聋人数量),推测与训练数据瑕疵有关。尽管如此,GPT-oss也展现出一定的创意能力,例如为挪威剧本撰写草稿或熟练使用Unicode字符。
然而,GPT-oss在其他领域的表现并不理想。官方数据显示,其幻觉率高达49%-53%,常生成不存在的理论或陷入无效推理循环。例如,它曾花费2小时尝试生成一个满足特定条件的3×3字母矩阵,却始终无法完成任务。此外,当谈论日常生活琐事时,它偶尔会拒绝回答或直接崩溃。
研究者已将相关数据公开,建议通过去重和对比不同模型输出来深入理解其机制。这些异常现象揭示了GPT-oss在训练目标和数据处理上的复杂性,同时也提醒我们关注其局限性。
参考链接:
[1] https://x.com/jxmnop/status/1953899426075816164
[2] https://news.ycombinator.com/item?id=44850260
[3] https://huggingface.co/datasets/jxm/GPT-oss20b-samples
.png)

-
2025-08-11 19:08:22
-
2025-08-11 19:06:36
-
2025-08-11 19:06:14