基本上我有两个矩阵,如下所示:
> Matrix A (100 rows x 2 features)
Height - Weight
1.48 75
1.55 65
1.60 70
etc...
Run Code Online (Sandbox Code Playgroud)
和矩阵B(矩阵A的相同维度,但当然具有不同的值)
我想了解Matrix A和Matrix B之间是否存在某种相关性,您建议我使用哪种策略?
如何测试两个相关系数是否显着不同 - 在GNU R中?
也就是说,如果相同变量(例如,年龄和收入)之间的影响在两个不同的群体(子样本)中不同.
有关背景信息,请参阅如何比较不同组中相同变量的相关系数,以及对Spearman相关系数差异的显着性检验(均为CrossValidated).
我想在给定相关向量的情况下创建相关矩阵,相关向量是相关矩阵的上(或下)三角矩阵.
目标是转换此向量

这个相关矩阵在对角线上有1s.

你知道是否有一种方法创建一个矩阵给定对角线上方的三角形并将对角线设置为1?
我正在尝试使用sklearn进行典型相关分析(CCA).我将从手册中包含的简单示例开始:
from sklearn.cross_decomposition import CCA
X = [[0., 0., 1.], [1.,0.,0.], [2.,2.,2.], [3.,5.,4.]]
Y = [[0.1, -0.2], [0.9, 1.1], [6.2, 5.9], [11.9, 12.3]]
cca = CCA(n_components=1)
cca.fit(X, Y)
X_c, Y_c = cca.transform(X, Y)
Run Code Online (Sandbox Code Playgroud)
据我所知,在cca.x_weights_中我得到了"规范系数",即原始X变量的线性组合(MATLAB返回的矩阵"A"和"B"的列).然而,"规范相关"在哪里,即应用由规范系数给出的变换时达到的最大相关性(即,MATLAB返回的矢量"r").是否有可能在Python中得到它?
我试图使用以下代码运行所有数字值之间的相关性(数据集包含数字和非数字值的列):
mydata= read.csv("C:\\full_path\\playerData.csv", header = TRUE)
mydata=data.frame(mydata)
vals=cor(mydata, use="complete.obs", method="pearson")
write.csv(vals,"C:\\Users\\weiler\\Desktop\\RStudioOutput.csv")
Run Code Online (Sandbox Code Playgroud)
基于这个网站:http://www.statmethods.net/stats/correlations.html我收到错误:
cor中的错误(mydata,use ="complete.obs",method ="pearson"):'x'必须是数字
我的错误似乎是因为某些数据是非数字的.有一种简单的方法可以忽略非数字数据吗?
很抱歉,如果这是非常明显的,但我看不出如何在调查包中的两个变量之间进行简单的Pearson关联.我的数据有层次,所以它相当于在apistrat中为api00和api99找到r.
library(survey)
data(api)
dstrat <- svydesign(id=~1,strata=~stype, weights=~pw, data=apistrat, fpc=~fpc)
Run Code Online (Sandbox Code Playgroud)
我敢肯定必须有一个简单的方法,使用svyvar或svyglm或其他东西,但我看不到它?
我有20,000*515 numpy矩阵,代表生物数据.我需要找到生物数据的相关系数,这意味着我将得到一个具有相关值的20,000*20,000矩阵.然后,如果每个相关系数大于阈值,则用1和0填充numpy数组.
我使用numpy.corrcoef来找到相关系数,它在我的机器上运行良好.
然后我想放入群集(有10台计算机,节点从2到8不等).当我尝试将它放入集群时,每个节点生成(40)随机数并从生物数据中得到那些40个随机列,产生20,000*40矩阵,我遇到内存问题说.
mpirun注意到,在节点名称上的PID#进程等级#退出信号9(被杀死).
然后我尝试重写程序,比如让每一行找到相关系数,如果值大于阈值,则将1存储在矩阵中,否则为0而不是创建相关矩阵.但是运行这个程序需要1.30小时.我需要运行它100次.
任何人都可以建议一个更好的方法来做到这一点,比如如何通过在每个核心完成它的工作后分配作业来解决内存问题.我是MPI的新手.以下是我的代码.
如果您需要更多信息,请告诉我.谢谢
import numpy
from mpi4py import MPI
import time
Size=MPI.COMM_WORLD.Get_size();
Rank=MPI.COMM_WORLD.Get_rank();
Name=MPI.Get_processor_name();
RandomNumbers={};
rndm_indx=numpy.random.choice(range(515),40,replace=False)
rndm_indx=numpy.sort(rndm_indx)
Data=numpy.genfromtxt('MyData.csv',usecols=rndm_indx);
RandomNumbers[Rank]=rndm_indx;
CORR_CR=numpy.zeros((Data.shape[0],Data.shape[0]));
start=time.time();
for i in range(0,Data.shape[0]):
Data[i]=Data[i]-np.mean(Data[i]);
alpha1=1./np.linalg.norm(Data[i]);
for j in range(i,Data.shape[0]):
if(i==j):
CORR_CR[i][j]=1;
else:
Data[j]=Data[j]-np.mean(Data[j]);
alpha2=1./np.linalg.norm(Data[j]);
corr=np.inner(Data[i],Data[j])*(alpha1*alpha2);
corr=int(np.absolute(corrcoef)>=0.9)
CORR_CR[i][j]=CORR_CR[j][i]=corr
end=time.time();
CORR_CR=CORR_CR-numpy.eye(CORR_CR.shape[0]);
elapsed=(end-start)
print('Total Time',elapsed)
Run Code Online (Sandbox Code Playgroud) 我正在尝试确定一个时间序列(如一个浮点数列表)是否与自身相关.我已经acf在statsmodels中使用了这个函数(http://statsmodels.sourceforge.net/devel/generated/statsmodels.tsa.stattools.acf.html),现在我正在研究Durbin-Watson统计数据有任何价值.
看起来这种事情应该有效:
from statsmodels.regression.linear_model import OLS
import numpy as np
data = np.arange(100) # this should be highly correlated
ols_res = OLS(data)
dw_res = np.sum(np.diff(ols_res.resid.values))
Run Code Online (Sandbox Code Playgroud)
如果你要运行它,你会得到:
Traceback (most recent call last):
...
File "/usr/lib/pymodules/python2.7/statsmodels/regression/linear_model.py", line 165, in initialize
self.nobs = float(self.wexog.shape[0])
AttributeError: 'NoneType' object has no attribute 'shape'
Run Code Online (Sandbox Code Playgroud)
似乎D/W通常用于比较两个时间序列(例如http://connor-johnson.com/2014/02/18/linear-regression-with-python/)的相关性,所以我认为问题是因为我没有通过另一个时间序列来比较.也许这应该在exog参数中传递给OLS?
exog : array-like
A nobs x k array where nobs is the number of observations and k is
the …Run Code Online (Sandbox Code Playgroud) 我试图gls在我的面板数据上使用广义最小二乘模型(在R中)来处理自相关问题.我不希望任何变量有任何滞后.
我正在尝试使用Durbin-Watson测试(dwtest在R中)来检查我的广义最小二乘模型(gls)中的自相关问题.但是,我发现它dwtest不适用于gls功能,而它适用于其他功能,如lm.
有没有办法从我的gls模型中检查自相关问题?
我正在尝试使用tensorflow进行语音识别.
我输入波形和字作为输出.
波形看起来像这样
[0,0,0,-2,3,-4,-1,7,0,0,0...0,0,0,20,-11,4,0,0,1,...]
Run Code Online (Sandbox Code Playgroud)
单词将是一个数字数组,而每个数字代表一个单词:
[12,4,2,3]
Run Code Online (Sandbox Code Playgroud)
训练之后,我还想找出每个输出标签的输入和输出之间的相关性.
例如,我想知道哪些输入神经元| 样品负责第一个标签(此处为12).
[0,0.01,0.10,0.99,0.77,0.89,0.99,0.79,0.22,0.11,0...0,0,0,0,0,0,0,0,0,...]
Run Code Online (Sandbox Code Playgroud)
输入的原始值将替换为相关,而0表示无相关,1表示总相关.
目标是在单词开始时获取位置.
是否有张量流中的函数来获得这种相关性?
correlation ×10
r ×5
python ×3
matlab ×2
matrix ×2
statistics ×2
mpi ×1
numpy ×1
panel-data ×1
regression ×1
scikit-learn ×1
statsmodels ×1
survey ×1
tensor ×1
tensorflow ×1
vector ×1