TIM*_*MEX 3 python mysql string algorithm
假设我有这个表:
ID | description
-------------------
5 | The bird flew over the tree.
2 | The birds, flew over the tree
Run Code Online (Sandbox Code Playgroud)
这两行具有"相似"的内容.我如何删除#2?
谢谢!
您可以尝试的是剥离必要的标点符号并通过词干分析器(例如Porter Stemmer)运行每个句子.
一旦你有句子的词干版本,你可以将其存储在另一列中进行比较.但是,如果句子很长(例如平均超过40个字符),你可能会发现散列句子的空间效率更高.
任何共享相同词干或散列的行很可能是等效的 - 您可以自动删除它们,或者创建一个UI以使人们能够快速批准每个行.