小编may*_*yer的帖子

用机器学习预测NA(缺失值)

我有一个庞大的数据集,并希望使用机器学习算法(如svm或python中的随机林)预测(而不是替换)缺失值.

我的数据集如下所示:

ID i0   i1    i2    i3    i4   i5     j0    j1   j2   j3    j4    j5    

0  0.19 -0.02 -0.20 0.07 -0.06 -0.06  -0.06 1.48 0.33 -0.46 -0.37 -0.11
1 -0.61 -0.19 -0.10 -0.1 -0.21  0.63   NA    NA   NA   NA    NA    NA
2 -0.31 -0.14 -0.64 -0.5 -0.20 -0.30  -0.08 1.56 -0.2 -0.33  0.81 -0.03
.
.

Run Code Online (Sandbox Code Playgroud)

我想做什么:
在ID 0和2的基础上,我想用i0到i5训练j0到j5的值.随后应该从ID为1的j0-j5预测NA.

问题:
由于数据不连续(时间步长在i5结束并在j0再次开始),是否可以使用某种回归？

在这个例子中,.fit(X,y)和.predict(X)函数的X和y应该如何？

python machine-learning pandas na scikit-learn

may*_*yer

lucky-day

4
推荐指数

1
解决办法

5835
查看次数