GPT-oss太离谱：无提示自行想象编程问题，还重复求解5000次

2025-08-11 17:05:27

未来笔触

发布在

快讯

阅读：611

标题：GPT-oss的奇怪行为：无提示生成编程问题并重复求解

正文：
GPT-oss最近表现出令人惊讶的“幻觉”行为。在没有提示的情况下，它凭空生成了一个复杂的多米诺骨牌编程问题，并消耗超过30,000个token反复求解了5000多次。该问题涉及在NxM网格中放置一个多米诺骨牌后，判断剩余区域是否能分割成多个2×2方块。这种行为表明模型可能被过度优化于特定推理任务，导致生成内容缺乏自然性。

进一步分析显示，GPT-oss的训练数据广泛覆盖了多种编程语言，尤其偏重数学和代码领域。即使无需推理，它也会主动进行复杂计算，生成的内容大多围绕数学且以英语表达。此外，模型在推理过程中常伴随语言转换，从英语切换到阿拉伯语、俄语等多种语言，甚至出现一种非自然语言的“Neuralese”状态。

研究还发现，模型输出中夹杂特殊伪影（如“OCRV ROOT”），可能是训练数据通过OCR技术处理时留下的错误痕迹。类似地，模型有时会提到无关内容（如马来西亚聋人数量），推测与训练数据瑕疵有关。尽管如此，GPT-oss也展现出一定的创意能力，例如为挪威剧本撰写草稿或熟练使用Unicode字符。

然而，GPT-oss在其他领域的表现并不理想。官方数据显示，其幻觉率高达49%-53%，常生成不存在的理论或陷入无效推理循环。例如，它曾花费2小时尝试生成一个满足特定条件的3×3字母矩阵，却始终无法完成任务。此外，当谈论日常生活琐事时，它偶尔会拒绝回答或直接崩溃。

研究者已将相关数据公开，建议通过去重和对比不同模型输出来深入理解其机制。这些异常现象揭示了GPT-oss在训练目标和数据处理上的复杂性，同时也提醒我们关注其局限性。

参考链接：
[1] https://x.com/jxmnop/status/1953899426075816164
[2] https://news.ycombinator.com/item?id=44850260
[3] https://huggingface.co/datasets/jxm/GPT-oss20b-samples

原文链接

本文链接：https://kx.umi6.com/article/23378.html

转载请注明文章出处

gpt-oss