小编dif*_*use的帖子

查找大型数据集中最长的公共子字符串

在过去的几天里,我对此进行了广泛的研究,我已经阅读了很多东西,以至于我现在更加困惑.如何在大型数据集中找到最长的公共子字符串?我们的想法是从这个数据集中删除重复的内容(长度不同,因此算法需要连续运行).通过大数据集,我的意思是大约100mb的文本.

后缀树?后缀数组?拉宾,卡普?什么是最好的方式?那里有一个可以帮助我的图书馆吗?

真的希望有一个好的回应,我的头很痛.谢谢!:-)

string algorithm suffix-tree large-files

9
推荐指数
1
解决办法
2377
查看次数

标签 统计

algorithm ×1

large-files ×1

string ×1

suffix-tree ×1