是否有任何工具或实用程序或perl/python脚本可以在大型文本文件中找到最长的重复子字符串并打印这些模式以及每个模式出现的次数?
http://en.wikipedia.org/wiki/Longest_repeated_substring_problem:
最长重复子串问题是找到一个字符串中至少出现两次的最长子串。这个问题可以在线性时间和空间上解决,方法是为字符串构建后缀树,并找到树中最深的内部节点
python中的后缀树(虽然有点过时了..):http://hkn.eecs.berkeley.edu/~dyoo/python/suffix_trees/
Javascript 实现及进一步解释:http://www.allisons.org/ll/AlgDS/Tree/Suffix/