熊猫corr（）经常返回NaN

Question

熊猫corr（）经常返回NaN

elP*_*tor 3 python statistics correlation dataframe pandas

我试图在数据框上运行我认为应该是简单的相关函数的函数，但是它在我认为不应该的地方返回NaN。

码：

# setup
import pandas as pd
import io

csv = io.StringIO(u'''
id  date    num
A   2018-08-01  99
A   2018-08-02  50
A   2018-08-03  100
A   2018-08-04  100
A   2018-08-05  100
B   2018-07-31  500
B   2018-08-01  100
B   2018-08-02  100
B   2018-08-03  0
B   2018-08-05  100
B   2018-08-06  500
B   2018-08-07  500
B   2018-08-08  100
C   2018-08-01  100
C   2018-08-02  50
C   2018-08-03  100
C   2018-08-06  300
''')

df = pd.read_csv(csv, sep = '\t')

# Format manipulation
df = df[df['num'] > 50]
df = df.pivot(index = 'date', columns = 'id', values = 'num')
df = pd.DataFrame(df.to_records())

# Main correlation calculations
print df.iloc[:, 1:].corr()

Run Code Online (Sandbox Code Playgroud)

主题数据框：

       A      B      C
0    NaN  500.0    NaN
1   99.0  100.0  100.0
2    NaN  100.0    NaN
3  100.0    NaN  100.0
4  100.0    NaN    NaN
5  100.0  100.0    NaN
6    NaN  500.0  300.0
7    NaN  500.0    NaN
8    NaN  100.0    NaN

Run Code Online (Sandbox Code Playgroud)

corr（）结果：

    A    B    C
A  1.0  NaN  NaN
B  NaN  1.0  1.0
C  NaN  1.0  1.0

Run Code Online (Sandbox Code Playgroud)

根据该函数的（有限的）文档，它应排除“ NA /空值”。由于每一列都有重叠的值，因此结果是否应全部不是非NaN？

这里和这里都进行了很好的讨论，但都没有回答我的问题。我已经尝试float64过这里讨论的想法，但是那也失败了。

@hellpanderr的评论提出了一个很好的观点，我使用的是0.22.0

奖励问题-我不是数学家，但是在这个结果中B和C之间如何存在1：1的相关性？

Answer 1

Cle*_*leb 6

结果似乎是您处理的数据的伪影。在编写时，NAs被忽略，因此基本上可以归结为：

df[['B', 'C']].dropna()

       B      C
1  100.0  100.0
6  500.0  300.0

Run Code Online (Sandbox Code Playgroud)

因此，每列只剩下两个值可用于计算，因此应得出以下相关系数1：

df[['B', 'C']].dropna().corr()

     B    C
B  1.0  1.0
C  1.0  1.0

Run Code Online (Sandbox Code Playgroud)

那么，NA其余组合的s从何而来呢？

df[['A', 'B']].dropna()

       A      B
1   99.0  100.0
5  100.0  100.0


df[['A', 'C']].dropna()

       A      C
1   99.0  100.0
3  100.0  100.0

Run Code Online (Sandbox Code Playgroud)

因此，在这里您最终也只获得每列两个值。不同之处在于，列B和C都只包含一个值（100），其标准偏差为0：

df[['A', 'C']].dropna().std()

A    0.707107
C    0.000000

Run Code Online (Sandbox Code Playgroud)

计算相关系数时，将除以标准偏差，得到a NA。

Cleb - 感谢您所做的繁重工作，我认为您在最后一部分关于标准偏差的内容中做到了。公认。 (4认同)

归档时间：	7 年，5 月前
查看次数：	2768 次
最近记录：	7 年，3 月前