有没有办法测试数据X和二进制输出Y之间的相关性?

use*_*815 6 python optimization correlation

我正在尝试找到一个Python方法/库来测试自变量X和二进制输出Y之间的相关性.

例如,假设我有以下数据和输出:

X            Y
0.65 1
0.11 0
0.13 0
0.35 1
0.21 0
...

假设输出Y如果(X> 0.3)则为1,否则为0.如果我不知道这种相关性(阈值0.3),是否有统计方法/测试来找出X和Y之间的相关程度?

例如,一些返回的方法

x = [0.65, 0.11, 0.13, 0.31, 0.21]
y = [1, 0, 0, 1, 0]
print some_test(x, y)

==> returns "degree of correlation = 1.0"
Run Code Online (Sandbox Code Playgroud)

谢谢

Jef*_*eff 9

您正在寻找点双线相关,当您的一个变量是二分的时使用.

from scipy import stats
stats.pointbiserialr(x,y)
Run Code Online (Sandbox Code Playgroud)

如果您只是想知道X是否根据Y的值而不同,您应该使用t检验.