假设我有一个包含以下单词的变量
ChicKen120
Chicken1.20
Chicken(1.20)
Cow
cow.
cow/
cat
Run Code Online (Sandbox Code Playgroud)
我意识到我可以
grep("chicken", df$words, ignore.case=T)找到所有类似于鸡的单词,但是通过每个单词运行它会很繁琐,即第一只鸡,然后是牛,然后是猫......
有没有办法在整列中找到相似的单词?
我想将类似的单词转换为一种标准格式,
chicken(1.20)
chicken(1.20)
chicken(1.20)
cow
cow
cow
cat
Run Code Online (Sandbox Code Playgroud)我有两个数据框。
a= 包含数千个不同天气事件观测结果的原始数据集。6000 个观测值
STATE EVTYPE
1 AL WINTER STORM
2 AL TORNADO
3 AL TSTM WIND
4 AL TSTM WIND
5 AL TSTM WIND
6 AL HAIL
7 AL HIGH WIND
8 AL TSTM WIND
9 AL TSTM WIND
10 AL TSTM WIND
Run Code Online (Sandbox Code Playgroud)
b= 字典表,其中有大多数天气事件的标准拼写。500 个观测值
EVTYPE evmatch
71 DUST DEVEL DUST DEVIL
72 DUST DEVIL DUST DEVIL
73 DUST DEVIL DUST DEVIL
74 DUST STORM DUST STORM
75 EARLY FROST <NA>
76 EARLY RAIN <NA>
Run Code Online (Sandbox Code Playgroud)
两者都合并 …