我有一堆名字,我想获得独特的名字.但是,由于拼写错误和数据不一致,名称可能写错了.我正在寻找一种方法来检查字符串向量,如果其中两个是similair.
例如:
pres <- c(" Obama, B.","Bush, G.W.","Obama, B.H.","Clinton, W.J.")
Run Code Online (Sandbox Code Playgroud)
我想找到它" Obama, B."并且"Obama, B.H."非常相似.有没有办法做到这一点?
我有两个歌曲标题列表,每个都是纯文本文件,这是许可的歌词文件的文件名 - 我想检查较短的列表标题(针)是否在更长的列表(haystack).脚本/应用程序应返回针头中不在大海捞针中的标题列表.
我更喜欢使用Python或shell脚本(BASH),或者只使用可以处理所需模糊性的可视差异程序.
主要问题是标题需要模糊匹配以解决数据输入错误以及可能还有字排序.
干草堆样本(注意一些重复和接近重复的行,突出显示匹配):
Yearn
Yesterday, Today And Forever
Yesterday, Today, Forever
You
You Alone
You Are Here (The Same Power)
You Are Holy
You Are Holy (Prince Of Peace)
You Are Mighty
You Are Mine
You Are My All In All
You Are My Hiding Place
You Are My King (Amazing Love)
You Are Righteous (Hope)
You Are So Faithful
You Are So Good to Me
You Are Worthy Of My Praise
You Have Been Good
You …Run Code Online (Sandbox Code Playgroud) 我有一个大型数据集,专门用于生物学期刊,由不同的人组成很长一段时间.因此,数据不是单一格式.例如,在"AUTHOR"栏中,我可以找到John Smith,Smith John,Smith J等,而它是同一个人.我无法执行最简单的操作.例如,我无法弄清楚作者撰写的文章最多.
在R中是否有任何方法来确定不同名称中的大多数符号是否相同,将它们视为相同的元素?
我有一个在 R 中看起来像这样的数据集:
address = c("882 4N Road River NY, NY 12345", "882 - River Road NY, ZIP 12345", "123 Fake Road Boston Drive Boston", "123 Fake - Rd Boston 56789")
name = c("ABC Center Building", "Cent. Bldg ABC", "BD Home 25 New", "Boarding Direct 25")
my_data = data.frame(address, name)
address name
1 882 4N Road River NY, NY 12345 ABC Center Building
2 882 - River Road NY, ZIP 12345 Cent. Bldg ABC
3 123 Fake Road Boston Drive …Run Code Online (Sandbox Code Playgroud) r ×3
analytics ×1
comparison ×1
database ×1
duplicates ×1
fuzzy-logic ×1
list ×1
openrefine ×1
r-faq ×1
recordset ×1
regex ×1
sql ×1
string ×1