从r中的双高斯混合生成样本(MATLAB中给出的代码)

ruy*_*uya 5 matlab plot r sample gaussian

我正在尝试创建(在r中)等效于以下MATLAB函数,该函数将从N(m1,(s1)^ 2)和N(m2,(s2)^ 2)的混合生成n个样本,alpha,来自第一个高斯.

我有一个开始,但结果在MATLAB和R之间有显着差异(即,MATLAB结果偶尔会给出+ -8的值,但R版本甚至不会给出+ -5的值).请帮我解决这里有什么问题.谢谢 :-)

例如:绘制来自N(0,1)和N(0,36)的混合的1000个样本和来自第一高斯的95%的样本.将样本标准化为零和标准差1.

MATLAB

功能

function y = gaussmix(n,m1,m2,s1,s2,alpha)
y = zeros(n,1);
U = rand(n,1);
I = (U < alpha)
y = I.*(randn(n,1)*s1+m1) + (1-I).*(randn(n,1)*s2 + m2);
Run Code Online (Sandbox Code Playgroud)

履行

P = gaussmix(1000,0,0,1,6,.95)
P = (P-mean(P))/std(P)
plot(P)
axis([0 1000 -15 15])
hist(P)
axis([-15 15 0 1000])
Run Code Online (Sandbox Code Playgroud)

结果情节

在MATLAB中从两个高斯分布中随机生成样本的图

得到的组织

在MATLAB中从两个高斯分布中随机生成样本的直方图

[R

yn <- rbinom(1000, 1, .95)
s <- rnorm(1000, 0 + 0*yn, 1 + 36*yn)
sn <- (s-mean(s))/sd(s)
plot(sn, xlim=range(0,1000), ylim=range(-15,15))
hist(sn, xlim=range(-15,15), ylim=range(0,1000))
Run Code Online (Sandbox Code Playgroud)

结果情节

R中两个高斯分布的随机生成样本的图

得到的组织

R中两个高斯分布的随机生成样本的直方图

一如既往,谢谢!

gaussmix <- function(nsim,mean_1,mean_2,std_1,std_2,alpha){
   U <- runif(nsim)
   I <- as.numeric(U<alpha)
   y <- I*rnorm(nsim,mean=mean_1,sd=std_1)+
       (1-I)*rnorm(nsim,mean=mean_2,sd=std_2)
   return(y)
}

z1 <- gaussmix(1000,0,0,1,6,0.95)
z1_standardized <- (z1-mean(z1))/sqrt(var(z1))
z2 <- gaussmix(1000,0,3,1,1,0.80)
z2_standardized <- (z2-mean(z2))/sqrt(var(z2))
z3 <- rlnorm(1000)
z3_standardized <- (z3-mean(z3))/sqrt(var(z3))

par(mfrow=c(2,3))
hist(z1_standardized,xlim=c(-10,10),ylim=c(0,500),
   main="Histogram of 95% of N(0,1) and 5% of N(0,36)",
   col="blue",xlab=" ")
hist(z2_standardized,xlim=c(-10,10),ylim=c(0,500),
   main="Histogram of 80% of N(0,1) and 10% of N(3,1)",
   col="blue",xlab=" ")
hist(z3_standardized,xlim=c(-10,10),ylim=c(0,500),
   main="Histogram of samples of LN(0,1)",col="blue",xlab=" ")
##
plot(z1_standardized,type='l',
   main="1000 samples from a mixture N(0,1) and N(0,36)",
   col="blue",xlab="Samples",ylab="Mean",ylim=c(-10,10))
plot(z2_standardized,type='l',
   main="1000 samples from a mixture N(0,1) and N(3,1)",
   col="blue",xlab="Samples",ylab="Mean",ylim=c(-10,10))
plot(z3_standardized,type='l',
  main="1000 samples from LN(0,1)",
   col="blue",xlab="Samples",ylab="Mean",ylim=c(-10,10))
Run Code Online (Sandbox Code Playgroud)

Ben*_*ker 6

我认为有两个问题......(1)你的R代码创建了正态分布的混合,标准偏差为1和37.(2)通过prob在你的rbinom()调用中设置等于alpha ,你在第二种模式而不是第一种模式中获得分数alpha .所以你得到的是一个分布,主要是高斯与sd 37,被高斯与sd 1的5%混合污染,而不是高斯与sd 1被高斯与sd 6的5%混合污染通过混合物的标准偏差(大约36.6)进行缩放基本上将其缩小为标准高斯,在原点附近有轻微的凹凸...

(这里发布的其他答案可以很好地解决您的问题,但我认为您可能对诊断感兴趣......)

你的Matlab gaussmix函数的一个更紧凑(也许更惯用)的版本(我认为runif(n)<alpha比它更有效rbinom(n,size=1,prob=alpha))

gaussmix <- function(n,m1,m2,s1,s2,alpha) {
    I <- runif(n)<alpha
    rnorm(n,mean=ifelse(I,m1,m2),sd=ifelse(I,s1,s2))
}
set.seed(1001)
s <- gaussmix(1000,0,0,1,6,0.95)
Run Code Online (Sandbox Code Playgroud)