Dan*_*ake 7 php similarity levenshtein-distance
我目前正在使用similar_text将一个字符串与~50,000的列表进行比较,虽然由于比较的数量非常慢,但它仍有效.比较~500个独特字符串大约需要11分钟.
在运行之前,我会检查数据库以查看它是否已经过去处理,因此每次运行后它都接近即时.
我肯定使用levenshtein会稍快一些,并且手册中发布的LevenshteinDistance函数看起来很有趣.我错过了一些可以使这个显着加快的东西吗?
最终,双方levenshtein并similar_text均过用绳子它必须要经过的数量缓慢,甚至有很多的检查,只有使用它们其中的一个作为最后的手段.
作为一个实验,我将一些代码移植到C#,看看它与嵌入式代码的速度有多快.它使用相同的数据集在大约3分钟内运行.
接下来,我在表中添加了一个额外的字段,并使用双元电话PECL扩展为每一行生成键.结果很好,虽然由于一些包含的数字,这导致重复.我想我可以通过上述功能运行每一个,但决定不这样做.
最后我选择了最简单的方法,MySQL的全文非常好用.偶尔会出现错误,尽管它们易于检测和纠正.它运行速度非常快,大约3-4秒.
| 归档时间: |
|
| 查看次数: |
4640 次 |
| 最近记录: |