Tee*_*ala 21
抖动确实意味着只是将随机噪声添加到数值向量中,默认情况下,这是通过从均匀分布中提取样本来在抖动函数中完成的.如果未提供amount -parameter ,则根据数据选择抖动中的值范围.
我认为术语"抖动"涵盖了除均匀之外的其他分布,并且通常用于更好地可视化重叠值,例如整数协变量.这有助于掌握观测密度高的地方.优良作法是在图例中提及某些值是否已被抖动,即使它是显而易见的.这是一个带有抖动函数和正态分布抖动的示例可视化,其中我任意抛出值sd = 0.1:
n <- 500
set.seed(1)
dat <- data.frame(integer = rep(1:3, each=n), continuous = c(rnorm(n, mean=1), rnorm(n, mean=2), rnorm(n, mean=3))^2)
par(mfrow=c(3,1))
plot(dat, main="No jitter for x-axis", xlab="Integer", ylab="Continuous")
plot(jitter(dat[,1]), dat[,2], main="Jittered x-axis (uniform distr.)", xlab="Integer", ylab="Continuous")
plot(dat[,1]+rnorm(3*n, sd=0.1), dat[,2], main="Jittered x-axis (normal distr.)", xlab="Integer", ylab="Continuous")
Run Code Online (Sandbox Code Playgroud)

可以在 R 中回归模型的漩涡课程中找到对抖动效应及其必要性的非常好的解释。
它采用弗朗西斯·高尔顿爵士 (Sir Francis Galton) 关于父母和子女身高之间关系的数据,将其绘制在没有抖动和抖动的图表上。
这是一个没有抖动的 (plot(child ~ parent, galton)):
这是有抖动的(请忽略回归线)(plot(jitter(child,4) ~ parent,galton)):
课程说如果你没有抖动,很多人会有相同的高度,所以点相互重叠,这就是为什么第一个图中的一些圆圈看起来比其他圆圈更暗。但是,通过在儿童身高上使用 R 的函数“抖动”,我们可以将数据展开来模拟测量误差,并使高频身高更加明显。