整数和布尔值之间的相关性(熊猫)?

Zer*_*uno 5 python statistics correlation pandas

我的数据格式如下:

price | bool_qual_1 | bool_qual_2 | bool_qual_3
13000 |        True |        True |        True
20000 |       False |        True |        True
15000 |        True |        True |       False
13000 |       False |       False |       False
15000 |        True |        True |        True
Run Code Online (Sandbox Code Playgroud)

换句话说,我的price属性有 3 个布尔性质。

我如何找到我price和我的每一个品质之间的相关性?

我知道 df.corr() 使用皮尔逊相关性,但这个值在整数和布尔值之间有意义吗?

Hat*_*Mad 3

正如评论中的一些人已经建议的那样:只需将“True”替换为 1,将“False”替换为 0。但是,您在执行操作时应该注意以下几点:

  1. 对于此任务,您将只能使用“Pearson 相关系数”,因为“Kendall Tau”和“Spearman 等级”系数是为可排名相关性创建的,并且可能会导致随机/错误的答案。要在 pandas 中使用皮尔逊相关系数,只需编写:

    df.corr(method ='pearson')

  2. 由于price变化很大,并且列bool_qual_*没有变化(现在它们只有 0 或 1),因此您应该预期相关系数的值会较低。