小编dif*_*use的帖子

在过去的几天里,我对此进行了广泛的研究,我已经阅读了很多东西,以至于我现在更加困惑.如何在大型数据集中找到最长的公共子字符串？我们的想法是从这个数据集中删除重复的内容(长度不同,因此算法需要连续运行).通过大数据集,我的意思是大约100mb的文本.

后缀树？后缀数组？拉宾,卡普？什么是最好的方式？那里有一个可以帮助我的图书馆吗？

真的希望有一个好的回应,我的头很痛.谢谢!:-)

9
推荐指数

1
解决办法

2377
查看次数

小编dif_use的帖子