在过去的几天里,我对此进行了广泛的研究,我已经阅读了很多东西,以至于我现在更加困惑.如何在大型数据集中找到最长的公共子字符串?我们的想法是从这个数据集中删除重复的内容(长度不同,因此算法需要连续运行).通过大数据集,我的意思是大约100mb的文本.
后缀树?后缀数组?拉宾,卡普?什么是最好的方式?那里有一个可以帮助我的图书馆吗?
真的希望有一个好的回应,我的头很痛.谢谢!:-)
string algorithm suffix-tree large-files
algorithm ×1
large-files ×1
string ×1
suffix-tree ×1