超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

2025-10-11 15:28:38

智能维度跳跃

发布在

科普

阅读：1401

超越ZIP的无损压缩来了！华盛顿大学让大模型成为无损文本压缩器

当大语言模型生成海量数据时，存储问题愈发突出。为此，华盛顿大学SyFI实验室提出了一种创新方案：LLMc，利用大型语言模型（LLM）实现无损文本压缩。基准测试显示，LLMc在维基百科、小说、科学摘要等数据集上的压缩率优于传统工具（如ZIP和LZMA），且性能不逊于其他闭源系统。该项目已开源，主要作者为上海交大本科生Yi Pan。

LLMc的核心机制基于“排序编码”。LLM根据上下文预测下一个词元，并生成概率分布列表，真实词元通常排名靠前。LLMc存储这些排名而非词元本身，因排名多为小整数，占用空间极小。解压时，系统通过相同LLM重现概率分布，读取排名还原原始文本。LLM在此过程中充当共享“密码本”，将自然语言的高维分布转化为结构化概率信息，从而实现高效压缩。

然而，LLMc也面临挑战：
1. 效率问题：LLM推理复杂度与序列长度呈二次方关系，长序列受内存带宽限制。LLMc通过分块处理缓解此问题。
2. 吞吐量低：依赖大规模推理，速度远低于传统算法。
3. 数值稳定性：需使用特殊内核及整数编码确保解压确定性。
4. 应用范围有限：目前仅针对自然语言，未来可探索扩展至图像、视频等领域。

参考链接：LLMc项目博客
GitHub地址：LLMc开源代码

原文链接

本文链接：https://kx.umi6.com/article/26475.html

转载请注明文章出处

LLMC