如何删除MySQL数据库中的"相似"但不相同的内容

TIM*_*MEX 3 python mysql string algorithm

假设我有这个表:

ID | description
-------------------
5  | The bird flew over the tree.
2  | The birds, flew over the tree
Run Code Online (Sandbox Code Playgroud)

这两行具有"相似"的内容.我如何删除#2?

  1. 我应该为"类似"文本使用什么算法?
  2. 我如何用Python做到这一点?

谢谢!

Pau*_*xon 5

您可以尝试的是剥离必要的标点符号并通过词干分析器(例如Porter Stemmer)运行每个句子.

一旦你有句子的词干版本,你可以将其存储在另一列中进行比较.但是,如果句子很长(例如平均超过40个字符),你可能会发现散列句子的空间效率更高.

任何共享相同词干或散列的行很可能是等效的 - 您可以自动删除它们,或者创建一个UI以使人们能够快速批准每个行.

这是Porter词干分析器Python实现.