小编Sku*_*rup的帖子

自动从列中提取拼写不匹配的字符串并在R中替换它们

我有一个巨大的数据集,类似于下面发布的列

NameofEmployee <- c(x, y, z, a)
Region <- c("Pune", "Orissa", "Orisa", "Poone")

Run Code Online (Sandbox Code Playgroud)

正如您所看到的,在Region列中,"Pune"区域以两种不同的方式拼写 - 即"Pune"和"Poona".

同样,"奥里萨"拼写为"奥里萨"和"奥里萨".

我有多个区域实际上是相同的但是拼写方式不同.这会在分析数据时引起问题.

我想在R的帮助下自动获得这些不匹配拼写的列表.
我还想自动用正确的拼写替换拼写.

string r text-analysis

Sku*_*rup

2018 07-27

6
推荐指数

2
解决办法

172
查看次数

ggplot 中的自动异常值标记

我在循环中使用 ggplot 为 200 个变量（V1、V2 等）中的每一个生成散点图。为了使散点图更清晰，我希望能够自动标记异常值。我想为每个唯一变量标记大于第 95 个百分位值的点。

我尝试使用此处的代码 - Label points in geom_point，但是，这更多的是标记异常值的手动方法。我有大约 200 个变量，无法指定每个变量的值。

同样，我能找到的最接近的解决方案来自上面的链接：county_list[i] 是我循环的变量列表

    ggplot(nba, aes(x= county_list[i], y= Afd_2017, colour="green", label=Name))+
    geom_point() +
    geom_text(aes(label=ifelse(value_of_V[i]>24,as.character(Name),'')),hjust=0,vjust=0)

Run Code Online (Sandbox Code Playgroud)

我想要的是这样的：

    ggplot(nba, aes(x= county_list[i], y= Afd_2017, colour="green", label=Name))+
    geom_point() +
    geom_text(aes(label=ifelse((value_of_V[i] >greater-than- 
    value-of-the-95-Percentile-of-the- 
    value_of_V[i]),as.character(Name),'')),hjust=0,vjust=0)

Run Code Online (Sandbox Code Playgroud)

r ggplot2 ggrepel

Sku*_*rup

2019 04-18

2
推荐指数

1
解决办法

4840
查看次数