Ret*_*ode 5 python string algorithm probability stat
我有一个随机字符串的50gb txt文件,其中我想计算该文件中子字符串的出现次数..很多次,对于不同的非预定义随机子字符串.
我想知道是否有另一种方法可以解决这个问题.
概率方式
类似于布隆过滤器,但我们可以进行概率计数,而不是概率成员检查.该数据结构将用于计数估计.
其他统计方法(?)
我可以使用任何虚拟方法来估计文本文件中字符串的出现次数?对替代品开放.
如果可以在<=对数时间内完成,那将是很好的,因为我将多次执行相同的任务.
一些流算法听起来与这个问题相关,无论是单独的还是相互结合的。
对文件的初步检查可以给出重要人物的近似值。根据您的问题,重量级分布可能足以满足您的需求,但该集合足够小,可以保存在内存中。如果是这种情况,您可以执行第二遍,仅计算第一遍中的重击者。
count -min sketch数据结构可以进行近似计数。您可以单独使用此数据结构,也可以使用它来计算重要人物的出现次数。
由于它被标记为 Python: