我有一个熊猫数据帧(这只是一小块)
>>> d1
y norm test y norm train len(y_train) len(y_test) \
0 64.904368 116.151232 1645 549
1 70.852681 112.639876 1645 549
SVR RBF \
0 (35.652207342877873, 22.95533537448393)
1 (39.563683797747622, 27.382483096332511)
LCV \
0 (19.365430594452338, 13.880062435173587)
1 (19.099614489458364, 14.018867136617146)
RIDGE CV \
0 (4.2907610988480362, 12.416745648065584)
1 (4.18864306788194, 12.980833914392477)
RF \
0 (9.9484841581029428, 16.46902345373697)
1 (10.139848213735391, 16.282141345406522)
GB \
0 (0.012816232716538605, 15.950164822266007)
1 (0.012814519804493328, 15.305745202851712)
ET DATA
0 (0.00034337162272515505, 16.284800366214057) j2m
1 (0.00024811554516431878, 15.556506191784194) j2m
>>>
Run Code Online (Sandbox Code Playgroud)
我想拆分包含元组的所有列.比如我想替换列LCV与列LCV-a和 …
我有两个数组,比如varx和vary.两者都包含不同位置的NAN值.但是,我想对两者进行线性回归,以显示两个数组的相关程度.到目前为止,这非常有用:http://glowingpython.blogspot.de/2012/03/linear-regression-with-numpy.html
但是,使用这个:
slope, intercept, r_value, p_value, std_err = stats.linregress(varx, vary)
Run Code Online (Sandbox Code Playgroud)
导致每个输出变量的nans.将两个数组中的有效值作为线性回归的输入的最方便的方法是什么?我听说过屏蔽数组,但我不确定它是如何工作的.
我想在Pandas ByGroup中应用scipy.stats.linregress.我查看了文档,但我能看到的是如何将某些内容应用于单个列
grouped.agg(np.sum)
Run Code Online (Sandbox Code Playgroud)
或类似的功能
grouped.agg('D' : lambda x: np.std(x, ddof=1))
Run Code Online (Sandbox Code Playgroud)
但是如何应用具有两个输入X和Y的linregress?