标签: lz77

问题:说了这么多,这就是我的问题:我在后缀树上找到的每一个资源似乎都暗示他们无法处理重叠的情况,而只允许你找到非重叠的匹配.当涉及后缀树时,研究论文,书籍甚至一些实现给出了压缩示例而没有重叠,好像它们是完美的压缩(我会链接到其中一些,但我的声誉不允许它).有些人甚至提到在描述基本压缩方案时重叠可能很有用,但在讨论后缀树时,这个问题很奇怪.

由于无论如何都需要扩充后缀树以存储偏移量信息,这似乎是在查找匹配时可以检查的属性 - 您将过滤掉在前瞻缓冲区中开始的任何匹配.构造/更新树的方式意味着如果边缘将您带到与前瞻开始的匹配相对应的节点,则返回前一个节点,因为任何其他后代也将在前瞻中缓冲.

我的方法是错误还是不正确？是否有LZ77/LZSS的实现或讨论,后缀树提到匹配重叠前瞻缓冲区？

c++ algorithm suffix-tree lossless-compression lz77

fla*_*ing

lucky-day

7
推荐指数

1
解决办法

757
查看次数

LZSS 与 LZ77 压缩差异

LZSS有人可以解释一下和算法之间的区别吗LZ77？我在网上查了几个小时，但找不到区别。我找到了LZ77算法并且了解了它的实现。

但是，与有何LZSS不同LZ77？假设我们有一个字符串，"abracadabra"如何以LZSS不同的方式压缩它LZ77？有我可以遵循的 C 伪代码吗？

感谢您的时间！

c compression difference lz77

作者

lucky-day

3
推荐指数

1
解决办法

2619
查看次数

为什么 LZ77 实现不同？

我试图找到 LZ77 的正确实现，LZ77是 1977 年论文中的原始著名算法。我发现有许多不同的实现会产生不同的输出，但仍标记为 LZ77。例如，有些使用哈希表，在更“官方”的算法（如 LZRW 或 LZJB）中使用的东西。所以我很困惑。

我测试过的一些实现：

https://gist.github.com/fogus/5401265（C，742 > 538 字节，哈希表？混乱的输出）
https://sourceforge.net/projects/crush（C++，742 > 508 字节，哈希表？混乱的输出）
https://github.com/cstdvd/lz77（C，742 > 642 字节——输出中包含可读的 ASCII）
http://lab.polygonpla.net/js/tinylz77.html（JS，742 > 863 字节！！——输出中包含可读的 ASCII）
http://geocities.com/diogok_br/lz77/demo.html（JS，742 > 658 字节——输出中包含可读的 ASCII）
github.com/olle/lz77-kit/src/main/js/lz77.js（JS，742 > 639 字节——在输出中包含可读的 ASCII）
https://github.com/Favrito/LZ77（C，742 > 755 字节！！）

据我所知，没有人使用任何后处理编码，例如霍夫曼等。

我用来压缩的文本：

Oho! Oho! Rise up, O Teti!
Take your head, collect your bones,
Gather your limbs, shake the earth from your flesh!
Take your bread that rots not, your beer that sours not,
Stand at …

Run Code Online (Sandbox Code Playgroud)

language-agnostic compression lz77

bry*_*ryc

2019 11-25

2
推荐指数

1
解决办法

355
查看次数

我想压缩.txt包含yyyy-mm-dd hh:mm:ss格式日期和有时在不同行中重复的英语单词的文件。
我阅读了一些有关压缩算法的文章，发现在我的例子中基于字典的编码比基于熵的编码更好。因为我想自己实现算法，所以我需要一些不太复杂的东西。所以我关注了LZW和LZ77，但不能在它们之间做出选择，因为我发现的文章结论是矛盾的。根据一些文章，LZW 具有更好的压缩比，而根据其他文章，领先者是 LZ77。所以问题是，对于我的情况，哪一个最有可能更好？是否有更易于实现的算法可以满足我的目的？

compression lzw lz77

Oku*_*umo

lucky-day

0
推荐指数

1
解决办法

3595
查看次数