在PHP中加速levenshtein/similar_text

Question

我目前正在使用similar_text将一个字符串与~50,000的列表进行比较,虽然由于比较的数量非常慢,但它仍有效.比较~500个独特字符串大约需要11分钟.

在运行之前,我会检查数据库以查看它是否已经过去处理,因此每次运行后它都接近即时.

我肯定使用levenshtein会稍快一些,并且手册中发布的LevenshteinDistance函数看起来很有趣.我错过了一些可以使这个显着加快的东西吗？

Answer 1

最终,双方levenshtein并similar_text均过用绳子它必须要经过的数量缓慢,甚至有很多的检查,只有使用它们其中的一个作为最后的手段.

作为一个实验,我将一些代码移植到C#,看看它与嵌入式代码的速度有多快.它使用相同的数据集在大约3分钟内运行.

接下来,我在表中添加了一个额外的字段,并使用双元电话PECL扩展为每一行生成键.结果很好,虽然由于一些包含的数字,这导致重复.我想我可以通过上述功能运行每一个,但决定不这样做.

最后我选择了最简单的方法,MySQL的全文非常好用.偶尔会出现错误,尽管它们易于检测和纠正.它运行速度非常快,大约3-4秒.