ggplot中缺失值的数量

Sab*_*lfy 2 r ggplot2 missing-data

我有一个数据框R如下:

gen    pos    count
A      1      10
A      2      20
A      3      15
A      4      
...
B      1      50
B      2      30
B      3      
B      4      40
...
Run Code Online (Sandbox Code Playgroud)

数据框包含~30000行.count在~300行中故意丢失值.我将这些数据绘制成:

ggplot(data=d, aes(x=pos, y=count, group=gen, colour=gen)) + geom_line()
Run Code Online (Sandbox Code Playgroud)

图中缺少缺少的数据点,这就是我想要的.我很满意这个情节.

但是,ggplot返回以下警告:

Removed 2 rows containing missing values (geom_path). 
Run Code Online (Sandbox Code Playgroud)

如果有大约300个缺失值(for count;没有缺失值gen或者pos),为什么只ggplot报告2?

Col*_*vel 5

举一个简单的例子:

df = data.frame(gen=rep(letters[1:3],each=6),
                y=c(NA,2,5,6,NA,8,9,NA,1,2,3,1,4,3,6.5,4.2,1,NA),
                x=rep(1:6,3))

ggplot(df, aes(x=x, y=y, colour=gen)) + geom_line()
Run Code Online (Sandbox Code Playgroud)

我们有警告:

Warning message:
Removed 2 rows containing missing values (geom_path). 
Run Code Online (Sandbox Code Playgroud)

通过查看下面的图表,我们看到:

  • 对于组a,(6,8)尽管没有NA ,但最后一个带坐标的点不存在.我们注意到这是一个"孤立点"(不能将它链接到以前的值(5, NA)具有NA).
  • 对于b组,尽管没有,但第一点缺席NA.它也是一个孤立的点,不能链接到下一个值,因为它具有NA.
  • 对于组c,最后一个点不存在但这是正确的,因为它具有y值NA.

因此,警告消息仅指示从图中移除了多少常规(非NA)但孤立的点.在这里2.

在此输入图像描述