Sab*_*lfy 2 r ggplot2 missing-data
我有一个数据框R如下:
gen pos count
A 1 10
A 2 20
A 3 15
A 4
...
B 1 50
B 2 30
B 3
B 4 40
...
Run Code Online (Sandbox Code Playgroud)
数据框包含~30000行.count在~300行中故意丢失值.我将这些数据绘制成:
ggplot(data=d, aes(x=pos, y=count, group=gen, colour=gen)) + geom_line()
Run Code Online (Sandbox Code Playgroud)
图中缺少缺少的数据点,这就是我想要的.我很满意这个情节.
但是,ggplot返回以下警告:
Removed 2 rows containing missing values (geom_path).
Run Code Online (Sandbox Code Playgroud)
如果有大约300个缺失值(for count;没有缺失值gen或者pos),为什么只ggplot报告2?
举一个简单的例子:
df = data.frame(gen=rep(letters[1:3],each=6),
y=c(NA,2,5,6,NA,8,9,NA,1,2,3,1,4,3,6.5,4.2,1,NA),
x=rep(1:6,3))
ggplot(df, aes(x=x, y=y, colour=gen)) + geom_line()
Run Code Online (Sandbox Code Playgroud)
我们有警告:
Warning message:
Removed 2 rows containing missing values (geom_path).
Run Code Online (Sandbox Code Playgroud)
通过查看下面的图表,我们看到:
(6,8)尽管没有NA ,但最后一个带坐标的点不存在.我们注意到这是一个"孤立点"(不能将它链接到以前的值(5, NA)具有NA).NA.它也是一个孤立的点,不能链接到下一个值,因为它具有NA.NA.因此,警告消息仅指示从图中移除了多少常规(非NA)但孤立的点.在这里2.