标签: correlation

如何计算R中庞大数据集中两个变量的相关性?

我有一个包含六列的大型数据集(称为A,B,C,D,E,F),大约450,000行.我只是试图找到列之间的相关性AB:

cor(A, B)
Run Code Online (Sandbox Code Playgroud)

我得到了

[1] NA

结果是.我该怎么做才能解决这个问题?

r correlation

6
推荐指数
1
解决办法
1931
查看次数

抑制data.table j函数中的输出

我想在一个使用中ccf为一个id变量的不同值绘制一些图.问题是返回一个不符合的值.我不关心返回值,只想看实际情节.一些代码:data.tableRccfdata.table

require(data.table)
x <- data.table(id=rep(1:10, each=10), a=rep(1:10,10), b=rep(10:1,10))
x[,ccf(a,b),by=id]
Error in `[.data.table`(x, , ccf(a, b), by = id) : 
All items in j=list(...) should be atomic vectors or lists. If you are trying something like j=list(.SD,newcol=mean(colA)) then use := by group instead (much quicker), or cbind or merge afterwards.
Run Code Online (Sandbox Code Playgroud)

plot r correlation data.table

6
推荐指数
1
解决办法
667
查看次数

DataFrame相关产生NaN,尽管它的值都是整数

我有一个数据帧df:

df   = pandas.DataFrame(pd.read_csv(loggerfile, header = 2))

values = df.as_matrix()

df2 = pd.DataFrame.from_records(values, index = datetimeIdx, columns = Columns) 
Run Code Online (Sandbox Code Playgroud)

编辑:

现在按照建议的方式读取数据:

df2 = pd.read_csv(loggerfile, header = None, skiprows = [0,1,2])
Run Code Online (Sandbox Code Playgroud)

样品:

                         0              1       2   3   4   5   6   7   8   \
0  2014-03-19T12:44:32.695Z  1395233072695  703425   0   2   1  13   5  21   
1  2014-03-19T12:44:32.727Z  1395233072727  703425   0   2   1  13   5  21   

   9   10  11   12  13   14  15  16  
0  25   0  25  209   0  145   0   0 …
Run Code Online (Sandbox Code Playgroud)

python nan series correlation pandas

6
推荐指数
1
解决办法
1万
查看次数

有没有办法测试数据X和二进制输出Y之间的相关性?

我正在尝试找到一个Python方法/库来测试自变量X和二进制输出Y之间的相关性.

例如,假设我有以下数据和输出:

X            Y
0.65 1
0.11 0
0.13 0
0.35 1
0.21 0
...

假设输出Y如果(X> 0.3)则为1,否则为0.如果我不知道这种相关性(阈值0.3),是否有统计方法/测试来找出X和Y之间的相关程度?

例如,一些返回的方法

x = [0.65, 0.11, 0.13, 0.31, 0.21]
y = [1, 0, 0, 1, 0]
print some_test(x, y)

==> returns "degree of correlation = 1.0"
Run Code Online (Sandbox Code Playgroud)

谢谢

python optimization correlation

6
推荐指数
1
解决办法
2361
查看次数

Caret包findCorrelation()函数

你好我的findCorrelation()函数有问题,这是我的输入和输出:

findCorrelation(train, cutoff = .50, verbose = FALSE)
Run Code Online (Sandbox Code Playgroud)

findCorrelation_exact出错(x = x,cutoff = cutoff,verbose = verbose):相关矩阵不对称

有谁知道为什么会这样?

r correlation r-caret

6
推荐指数
2
解决办法
7870
查看次数

如何有效地获取具有NaN值的数据帧的相关矩阵(具有p值)?

我正在尝试计算相关矩阵,并根据p值过滤相关性,以找出高度相关的对。

为了解释我的意思,请说我有一个这样的数据框。

df

    A       B       C       D
0   2       NaN     2       -2
1   NaN     1       1       1.1
2   1       NaN     NaN     3.2
3   -4      NaN     2       2
4   NaN     1       2.1     NaN
5   NaN     3       1       1
6   3       NaN     0       NaN
Run Code Online (Sandbox Code Playgroud)

为相关系数。我使用了pd.corr()。此方法可以处理具有NaN值的数据帧,更重要的是,它可以容忍具有0重叠的列对(列A和列B):

rho = df.corr()

       A          B            C           D
A   1.000000     NaN       -0.609994    0.041204
B   NaN          1.0       -0.500000    -1.000000
C   -0.609994    -0.5       1.000000    0.988871
D   0.041204     -1.0       0.988871    1.000000
Run Code Online (Sandbox Code Playgroud)

挑战在于计算p值。我没有找到执行此操作的内置方法。但是,从具有统计意义的大熊猫列相关性中,@ BKay提供了一种计算p值的循环方法。如果重叠少于3个,此方法将报告错误。因此我通过添加错误异常进行了一些修改。

ValueError:零大小的数组,直到没有身份的最大缩减操作

pval = rho.copy()
for i …
Run Code Online (Sandbox Code Playgroud)

python correlation pandas p-value

6
推荐指数
1
解决办法
2679
查看次数

如何使用关联功能关联前端调用和Web API调用的两个AI遥测数据

我有Angular2Asp.Net Web API应用程序,因此我将Application Insights资源配置为跟踪那些应用程序的自定义遥测。但是我使用了两种不同的AI密钥,一种用于Angular2应用程序,另一种用于Web API应用程序。

我曾经使用关联功能来关联前端调用和Web API调用的两次Applications Insights遥测,但是操作ID不匹配。

您能告诉我如何使用关联功能关联两个AI的前端调用和Web API调用遥测。

azure correlation azure-application-insights

6
推荐指数
1
解决办法
757
查看次数

如何在卷积网中使用im2col操作更有效?

我正在尝试实现卷积神经网络,我不明白为什么使用im2col操作更有效.它基本上存储要在不同列中乘以过滤器的输入.但为什么不应该直接使用循环来计算卷积而不是首先执行im2col?

convolution neural-network correlation conv-neural-network deconvolution

6
推荐指数
1
解决办法
3647
查看次数

Show correlation values in pairplot using seaborn in python

I have the below data:

prop_tenure  prop_12m  prop_6m  
0.00         0.00      0.00   
0.00         0.00      0.00   
0.06         0.06      0.10   
0.38         0.38      0.25   
0.61         0.61      0.66   
0.01         0.01      0.02   
0.10         0.10      0.12   
0.04         0.04      0.04   
0.22         0.22      0.22 
Run Code Online (Sandbox Code Playgroud)

and I am doing a pairplot as below:

sns.pairplot(data)
plt.show()
Run Code Online (Sandbox Code Playgroud)

However I would like to display the correlation coefficient among the variables and if possible the skewness and kurtosis of each variable. I am not sure how to do that in seaborn. Can someone please …

python correlation seaborn

6
推荐指数
1
解决办法
2416
查看次数

如何用熊猫计算滚动相关性?

我理解如何计算滚动总和,标准或平均值.例:

df['MA10'] = df['Asset1'].rolling(10).mean()
Run Code Online (Sandbox Code Playgroud)

但我不理解计算两个数据帧列之间的滚动相关性的语法:df['Asset1']df['Asset2']

该文档未提供有关相关性的任何示例.

https://pandas.pydata.org/pandas-docs/stable/generated/pandas.DataFrame.rolling.html

任何见解?

谢谢!

python correlation dataframe pandas

6
推荐指数
1
解决办法
4988
查看次数