小编Sha*_*ani的帖子

R 中跨列的模糊匹配

如何衡量 r 中名称的相似程度?换句话说,可以进行模糊匹配的程度。

例如,我正在使用如下所示的数据框:

Name.1 <- c("gonzalez", "wassermanschultz", "athanasopoulos", "armato")
Name.2 <- c("gonzalezsoldevilla", "schultz", "anthanasopoulos", "strain")

df1 <- data.frame(Name.1, Name.2)
Run Code Online (Sandbox Code Playgroud)
df1
            Name.1             Name.2
1         gonzalez gonzalezsoldevilla
2 wassermanschultz            schultz
3   athanasopoulos    anthanasopoulos
4           armato             strain
Run Code Online (Sandbox Code Playgroud)

从数据中可以清楚地看出,第 1 行和第 2 行足够相似,足以确信名称相同。第三行是相同的名称,尽管拼写错误,第四行完全不同。

作为输出,我想创建第三列来描述名称之间的相似程度或返回某种布尔值以指示可以进行模糊匹配。

string r string-matching fuzzy-logic fuzzy-comparison

7
推荐指数
1
解决办法
2126
查看次数

如何在r中的第n个字符之后拆分字符串

我正在处理以下数据:

District <- c("AR01", "AZ03", "AZ05", "AZ08", "CA01", "CA05", "CA11", "CA16", "CA18", "CA21")
Run Code Online (Sandbox Code Playgroud)

我想在第二个字符之后拆分字符串并将它们分成两列。

使数据看起来像这样:

state  district
AR        01
AZ        03
AZ        05
AZ        08
CA        01
CA        05
CA        11
CA        16
CA        18
CA        21
Run Code Online (Sandbox Code Playgroud)

有没有简单的代码来完成这项工作?非常感谢你的帮助

string split r data-management

2
推荐指数
2
解决办法
1563
查看次数

将月份名称转换为 r 中的数字

我正在使用包含完整月份名称的数据:

months <- c("March",     "April",     "May",       "June",      "July",  "August",  "September")

Run Code Online (Sandbox Code Playgroud)

是否有将它们转换为数字的函数?

非常感谢

time date recode

1
推荐指数
1
解决办法
4019
查看次数

在 R 中从维基百科中抓取表格

我想知道是否有人对维基百科的网络抓取表有有用的想法或代码。

具体来说,我对维基百科“各县结果”部分中的总统选举结果表感兴趣。

使用以下链接并向下滚动到“按县划分的结果”部分可以找到示例表:https ://en.wikipedia.org/wiki/1948_United_States_presidential_election_in_Texas

该表如下所示: 在此输入图像描述

我尝试了以下 StackOverflow 帖子中的一些解决方案:在 R 中导入维基百科表

然而,它们似乎不适用于我想在维基百科中抓取的表格类型。

任何建议、解决方案或代码将不胜感激。谢谢你!

wikipedia r web-scraping

1
推荐指数
1
解决办法
379
查看次数