Python中的概率计数

Question

我有一个随机字符串的50gb txt文件,其中我想计算该文件中子字符串的出现次数..很多次,对于不同的非预定义随机子字符串.

我想知道是否有另一种方法可以解决这个问题.

概率方式

类似于布隆过滤器,但我们可以进行概率计数,而不是概率成员检查.该数据结构将用于计数估计.

其他统计方法(？)

我可以使用任何虚拟方法来估计文本文件中字符串的出现次数？对替代品开放.

如果可以在<=对数时间内完成,那将是很好的,因为我将多次执行相同的任务.

Answer 1

一些流算法听起来与这个问题相关，无论是单独的还是相互结合的。

对文件的初步检查可以给出重要人物的近似值。根据您的问题，重量级分布可能足以满足您的需求，但该集合足够小，可以保存在内存中。如果是这种情况，您可以执行第二遍，仅计算第一遍中的重击者。
count -min sketch数据结构可以进行近似计数。您可以单独使用此数据结构，也可以使用它来计算重要人物的出现次数。

由于它被标记为 Python：