use*_*293 1 merge join r left-join dplyr
我有两个数据框。
a
= 包含数千个不同天气事件观测结果的原始数据集。6000 个观测值
STATE EVTYPE
1 AL WINTER STORM
2 AL TORNADO
3 AL TSTM WIND
4 AL TSTM WIND
5 AL TSTM WIND
6 AL HAIL
7 AL HIGH WIND
8 AL TSTM WIND
9 AL TSTM WIND
10 AL TSTM WIND
Run Code Online (Sandbox Code Playgroud)
b
= 字典表,其中有大多数天气事件的标准拼写。500 个观测值
EVTYPE evmatch
71 DUST DEVEL DUST DEVIL
72 DUST DEVIL DUST DEVIL
73 DUST DEVIL DUST DEVIL
74 DUST STORM DUST STORM
75 EARLY FROST <NA>
76 EARLY RAIN <NA>
Run Code Online (Sandbox Code Playgroud)
两者都合并df_new
为evtype
library(dplyr)
df_new <- left_join(a, b, by = c("EVTYPE"))
STATE EVTYPE evmatch
1 AL WINTER STORM WINTER STORM
2 AL TORNADO TORNADO
3 AL TSTM WIND THUNDERSTORM WIND
4 AL TSTM WIND THUNDERSTORM WIND
5 AL TSTM WIND THUNDERSTORM WIND
6 AL HAIL HAIL
7 AL HIGH WIND HIGH WIND
8 AL TSTM WIND THUNDERSTORM WIND
9 AL TSTM WIND THUNDERSTORM WIND
10 AL TSTM WIND THUNDERSTORM WIND
11 AL HEAVY RAIN HEAVY RAIN
12 AL FLASH FLOOD FLASH FLOOD
13 AL TSTM WIND THUNDERSTORM WIND
14 AL HEAVY RAIN HEAVY RAIN
15 AL TSTM WIND THUNDERSTORM WIND
Run Code Online (Sandbox Code Playgroud)
当我将两者结合起来时,我最终得到的数据集比原始数据集具有更多的 obs。
iea
有6000个obs,df_new
有69400个。
如何合并两个数据集,以便生成的 df 与原始数据帧相同。
原始数据集对于同一天气事件有多个拼写错误/拼写,即dust devel
, dust devil
。
为了进行分析,每个观察结果都需要标准拼写。例如,我无法运行分析,dust devil
因为同一事件的多个观察结果具有不同的拼写。
我创建了一个“字典”,其中包含每种事件类型的官方拼写,即 dust devel
,dust devil
是dust devil
和tstm wind
是thunderstorm wind
我想在原始数据集中添加一列,显示每个天气事件的正确拼写。
但是,我生成的数据集有额外的行。
你的 b 表有重复项,替换b
为unique(b)
,你应该没问题。
df_new <- left_join(a, unique(b))
Run Code Online (Sandbox Code Playgroud)
“左连接”仅意味着将使用 a 中的所有行,即使它们在 中没有匹配项b
。如果他们在 中有多个匹配项b
,您将在 中获得额外的行df_new
。
请参阅此以获取更多信息:
https://stat545-ubc.github.io/bit001_dplyr-cheatsheet.html#left_joinsuperheroes-publishers