Rag*_*ilt 2 python numpy scipy pandas scikit-learn
我试图找到一种方法来迭代代码,在许多列上进行线性回归,直到Z3.这是一个名为df1的数据帧片段
Time A1 A2 A3 B1 B2 B3
1 1.00 6.64 6.82 6.79 6.70 6.95 7.02
2 2.00 6.70 6.86 6.92 NaN NaN NaN
3 3.00 NaN NaN NaN 7.07 7.27 7.40
4 4.00 7.15 7.26 7.26 7.19 NaN NaN
5 5.00 NaN NaN NaN NaN 7.40 7.51
6 5.50 7.44 7.63 7.58 7.54 NaN NaN
7 6.00 7.62 7.86 7.71 NaN NaN NaN
Run Code Online (Sandbox Code Playgroud)
此代码仅返回非常一列的线性回归的斜率系数,并将该值连接到一个名为series的numpy系列,这里是为第一列提取斜率的样子:
from sklearn.linear_model import LinearRegression
series = np.array([]) #blank list to append result
df2 = df1[~np.isnan(df1['A1'])] #removes NaN values for each column to apply sklearn function
df3 = df2[['Time','A1']]
npMatrix = np.matrix(df3)
X, Y = npMatrix[:,0], npMatrix[:,1]
slope = LinearRegression().fit(X,Y) # either this or the next line
m = slope.coef_[0]
series= np.concatenate((SGR_trips, m), axis = 0)
Run Code Online (Sandbox Code Playgroud)
就像现在一样,我正在使用这段代码,将"A1"替换为新的列名,一直到"Z3",这是非常低效的.我知道有一些简单的方法可以用一些模块来做到这一点,但我的缺点是在时间序列中拥有所有这些中间NaN值,所以看起来我只限于这种方法,或类似的东西.
我尝试使用for循环,例如:
for col in df1.columns:
Run Code Online (Sandbox Code Playgroud)
并替换'A1',例如使用代码中的col,但这似乎不起作用.
有什么方法可以更有效地做到这一点吗?
谢谢!
time = df[['Time']]
pd.DataFrame(np.linalg.pinv(time.T.dot(time)).dot(time.T).dot(df.fillna(0)),
['Slope'], df.columns)
Run Code Online (Sandbox Code Playgroud)
使用封闭形式的OLS
在这种情况下X是time我们定义time的df[['Time']].我使用双括号来保留数据帧及其两个维度.如果我做了单支架,我会得到一个系列和它的一个维度.然后点产品不那么漂亮.
是 np.linalg.pinv(time.T.dot(time)).dot(time.T)
Y是df.fillna(0).是的,我们可以一次完成一个专栏,但为什么我们可以完全这样做.你必须处理NaNs.你会怎么想象与他们打交道?只有在你有数据的时候才这样做?这相当于在NaN点中放置零.所以我做了.
最后,我使用pd.DataFrame(stuff, ['Slope'], df.columns)原始标签在一个地方包含所有斜坡.
请注意,我计算了时间对自身的回归斜率.为什么不?它就在那里.它的值是1.0.大!我可能做对了!
| 归档时间: |
|
| 查看次数: |
1486 次 |
| 最近记录: |