压缩的理论限制是什么？

Question

想象一下,在接下来的10年里,您拥有世界上所有的超级计算机.你的任务是尽可能无损地压缩10部完整的电影.另一个标准是普通计算机应该能够动态解压缩,并且不需要花费太多的HD来安装解压缩软件.

我的问题是,你能比现在最好的替代方案实现多少压缩？1%,5%,50%？更具体地说:给定一个固定的字典大小(如果它也被称为视频压缩),是否存在压缩的理论限制？

Answer 1

压缩的限制取决于源的随机性.欢迎来到信息理论研究!请参阅数据压缩.

Answer 2

有一个理论上的限制:我建议阅读这篇关于信息理论和鸽子洞原理的文章.它似乎以一种非常容易理解的方式总结了这个问题.

+1.不仅有理论限制,而且还有一个名称:这10部电影的理论最小尺寸限制被称为"[Kolmogorov复杂性](http://en.wikipedia.org/wiki/Kolmogorov_complexity) 10部电影". (4认同)

Answer 3

如果您有要压缩的所有电影的固定目录，则只需发送该电影的ID，然后使用该索引“解压缩”查找数据。因此，压缩可以达到log2（N）位的固定大小，其中N是电影的数量。

我怀疑实际的下限比这还高。

您真的是说无损吗？我认为，当今大多数视频压缩都是有损的。

Answer 4

利用信息论的最新发展重新定义限制非常重要。为此，我推荐以下文章，该文章非常详细且清晰。

\n

\n

为了定义压缩极限，必须报告该极限有效的假设。

\n

在信息论中，使用了以下 3 个基本假设：

\n

\n

第一个极限是最著名的，由香农定义，其中所有 3 个假设均成立。

\n

NH(X)\n具有源 X 的 H(X) 熵。

\n

第二个限制。我们删除第二个假设，解码器不知道来源。

\n

NH(X)+来源信息

\n

第三个限制，让我们删除第三个假设。在这种情况下，使用了集合塑造理论 SST，这是一种彻底改变信息论的新方法。该理论研究一对一函数 f，将一组字符串转换为一组由更大长度的字符串组成的相同大小的集合。通过这种方法，我们得到以下限制：

\n

N2H(Y)+源信息\xe2\x89\x88NH(X)\n其中f(X)=Y且N2>N。

\n

在实践中，我们获得的压缩增益相当于获得了描述源所需的信息。描述源所需的信息代表了熵编码的低效率。

\n

然而，在这种情况下，不可能一次解码一个符号（代码不是瞬时的），但在获得原始消息之前必须对消息进行完整解码。

\n

该领域已取得重要进展。可以将该理论应用于数据压缩的具体案例“集合整形理论在霍夫曼编码中的实际应用”。

\n

另一个有趣的方面是，作者共享了执行集合整形理论中描述的变换的代码和函数。该文件在 Matlab 文件交换上共享：https://www.mathworks.com/matlabcentral/fileexchange/115590-test-sst-huffman-coding ?s_tid=FX_rc1_behav

\n