如何衡量 r 中名称的相似程度?换句话说,可以进行模糊匹配的程度。
例如,我正在使用如下所示的数据框:
Name.1 <- c("gonzalez", "wassermanschultz", "athanasopoulos", "armato")
Name.2 <- c("gonzalezsoldevilla", "schultz", "anthanasopoulos", "strain")
df1 <- data.frame(Name.1, Name.2)
Run Code Online (Sandbox Code Playgroud)
df1
Name.1 Name.2
1 gonzalez gonzalezsoldevilla
2 wassermanschultz schultz
3 athanasopoulos anthanasopoulos
4 armato strain
Run Code Online (Sandbox Code Playgroud)
从数据中可以清楚地看出,第 1 行和第 2 行足够相似,足以确信名称相同。第三行是相同的名称,尽管拼写错误,第四行完全不同。
作为输出,我想创建第三列来描述名称之间的相似程度或返回某种布尔值以指示可以进行模糊匹配。
我正在处理以下数据:
District <- c("AR01", "AZ03", "AZ05", "AZ08", "CA01", "CA05", "CA11", "CA16", "CA18", "CA21")
Run Code Online (Sandbox Code Playgroud)
我想在第二个字符之后拆分字符串并将它们分成两列。
使数据看起来像这样:
state district
AR 01
AZ 03
AZ 05
AZ 08
CA 01
CA 05
CA 11
CA 16
CA 18
CA 21
Run Code Online (Sandbox Code Playgroud)
有没有简单的代码来完成这项工作?非常感谢你的帮助
我正在使用包含完整月份名称的数据:
months <- c("March", "April", "May", "June", "July", "August", "September")
Run Code Online (Sandbox Code Playgroud)
是否有将它们转换为数字的函数?
非常感谢
我想知道是否有人对维基百科的网络抓取表有有用的想法或代码。
具体来说,我对维基百科“各县结果”部分中的总统选举结果表感兴趣。
使用以下链接并向下滚动到“按县划分的结果”部分可以找到示例表:https ://en.wikipedia.org/wiki/1948_United_States_presidential_election_in_Texas
我尝试了以下 StackOverflow 帖子中的一些解决方案:在 R 中导入维基百科表
然而,它们似乎不适用于我想在维基百科中抓取的表格类型。
任何建议、解决方案或代码将不胜感激。谢谢你!