别争了！香农老婆，才是世界上第一个大语言模型

2026-07-05 22:55:08

像素宇宙

发布在

科普

阅读：269

1950年左右，信息论鼻祖香农和妻子贝蒂玩了一个“猜字母”游戏：香农给前文，贝蒂猜下一个字母。猜对画短横，猜错写原字母。这其实是人类最早的“预测下一个词”实验，贝蒂堪称世界上第一个“大语言模型”。

这个游戏揭示了信息论的核心：语言可预测，而可预测就意味着可压缩。被短横替代的文本变短了，但信息没丢。香农借此指出，预测和压缩是一体两面。越容易预测的内容信息量越小；完全猜不到的“意外”才是真正的信息。衡量这种不确定性的指标即为“熵”。

今天的大语言模型（如GPT）本质上也在做同样的事。它们吸收海量数据，努力预测下一个词。模型预测得越准，交叉熵损失（Loss）就越低，这就相当于当年贝蒂画下的一个个短横。

虽然单纯的压缩不等于智能，但智能的核心能力之一，正是捕捉世界运行的可预测规律。七十多年过去，当年贝蒂猜对字母时画下的短横，如今已化作大模型不断降低的Loss，成为了AI进化的基石。

原文链接

本文链接：https://kx.umi6.com/article/36837.html

转载请注明文章出处

压缩

大语言模型

预测

分享至

打开微信扫一扫

内容投诉

生成图片

像素宇宙

727 文章

742835 浏览

24小时热文