文字压缩算法

H-B*_*ami 2 compression algorithm unicode text-compression

我只是想知道是否有人可以向我介绍将Unicode文本压缩到其原始大小的10%到20%的算法?实际上,我已经阅读了Lempel-Ziv压缩算法,该算法将文本大小减小到原始大小的60%,但我听说有些算法具有这种性能

Vik*_*hat 5

如果您只考虑文本压缩,而不是第一种使用基于熵的加密的算法,称为霍夫曼编码(Huffman Encoding)

霍夫曼编码

然后是LZW压缩,它使用字典编码来使用先前使用的字母序列来分配代码以减小文件的大小。

LZW压缩

我认为以上两个足以有效地编码文本数据,并且易于实现。

注意:不要期望对所有文件进行良好的压缩,如果数据是随机的,没有模式,则没有压缩算法可以为您提供任何压缩。压缩百分比取决于文件中显示的符号,而不仅取决于所使用的算法。