查找拼写错误的城市名称的最接近匹配项?

THX*_*8.6 5 php mysql algorithm misspelling

我有一个城市列表,其中有许多城市拼写错误。一个城市的拼写错误18次!我正在尝试清理它,但要花费几个小时。是否有一些算法可能会为这些拼写错误的城市中的每个城市“猜测”有效的城市名称?某种形式的加权?数据在MySQL中,我确实有一个正确拼写的表也可以与之进行比较。

有什么想法吗?一个PHP示例可能会有所帮助。

S.L*_*ott 2

  1. 了解有关 Levenshtein 距离的信息:http://en.wikipedia.org/wiki/Levenshtein_distance

  2. 找到一个实现或编写自己的实现。事情没那么复杂。

  3. 用它来查找未遂的拼写错误。

  • PHP 内置了一个 levenshtein 距离函数:http://www.php.net/manual/en/function.levenshtein.php (6认同)