我有下表有2列:ID和标题包含超过500.000条记录.例如:
ID Title
-- ------------------------
1 Aliens
2 Aliens (1986)
3 Aliens vs Predator
4 Aliens 2
5 The making of "Aliens"
Run Code Online (Sandbox Code Playgroud)
我需要找到非常相似的记录,并且我的意思是它们有3-6个字母不同,通常这个差异在标题的末尾.所以我必须设计一个返回记录号的查询.1,2和4.我已经看过levenstein距离,但我不知道如何应用它.此外,由于记录的数量,查询不应该整夜.
感谢您的任何想法或建议