我具有表A和表B,其中包含以下示例人口统计数据和列。
表A:
F_Name S_Name DOB SSN
David Sam 1/1/1980 123-45-6789
David Lieser 10/7/1940 987-65-4321
John Doe 12/31/2001 500-00-0000
Run Code Online (Sandbox Code Playgroud)
表B:
F_Name S_Name DOB SSN
Dave Sammy 1/2/1980 223-45-6789
Run Code Online (Sandbox Code Playgroud)
没有可能用于连接两个表的唯一标识符。
通过查看上述样本数据,我想将David Sam 1/1/1980 123-45-6789(来自表A)和Dave Sammy 1/2/1980 223-455-6789(来自表B)返回为可能是同一个人–理由是DOB,SSN距离足够近,只有一位或几位数字掉了,这可能是由于人为数据输入错误造成的,而且名称听起来相似或相似或相似。我该如何实现?
F_Name S_Name DOB SSN F_Name_1 S_Name_1 DOB_1 SSN_1
David Sam 1/1/1980 123-45-6789 Dave Sammy 1/2/1980 223-455-6789
Run Code Online (Sandbox Code Playgroud)