bla*_*lah 9 python statistics numpy scipy
假设样本量不相等,在下列情况下我会用什么样的测试来比较样本均值(如果以下任何一种情况不正确,请更正):
正态分布=真和方差齐性=真
scipy.stats.ttest_ind(sample_1, sample_2)
Run Code Online (Sandbox Code Playgroud)
正态分布=真和方差齐性=假
scipy.stats.ttest_ind(sample_1, sample_2, equal_var = False)
Run Code Online (Sandbox Code Playgroud)
正态分布=假和方差的均匀性=真
scipy.stats.mannwhitneyu(sample_1, sample_2)
Run Code Online (Sandbox Code Playgroud)
正态分布=假和方差齐性=假
???
Run Code Online (Sandbox Code Playgroud)
正态分布=真实且方差的均质性= False并且样本大小> 30-50
scipy.stats.ttest_ind(sample1, sample2, equal_var=False)
Run Code Online (Sandbox Code Playgroud)
如果您检查中央极限定理,它说(来自Wikipedia):“在概率论中,中央极限定理(CLT)指出,在某些条件下,足够大的独立随机变量迭代的算术平均值,每个具有明确定义的(有限)期望值和有限方差的结果,无论底层分布如何,其近似正态分布”
因此,尽管您没有正态分布的总体,但如果样本足够大(大于30或50个样本),则样本均值将呈正态分布。因此,您可以使用:
scipy.stats.ttest_ind(sample1, sample2, equal_var=False)
Run Code Online (Sandbox Code Playgroud)
这是对零假设的两个方面的检验,即两个独立样本的均值(预期值)相同。使用equal_var = False选项时,将执行Welch的t检验,该检验不假定总体方差相等。