我有一个庞大的数据集,并希望使用机器学习算法(如svm或python中的随机林)预测(而不是替换)缺失值.
我的数据集如下所示:
ID i0 i1 i2 i3 i4 i5 j0 j1 j2 j3 j4 j5
0 0.19 -0.02 -0.20 0.07 -0.06 -0.06 -0.06 1.48 0.33 -0.46 -0.37 -0.11
1 -0.61 -0.19 -0.10 -0.1 -0.21 0.63 NA NA NA NA NA NA
2 -0.31 -0.14 -0.64 -0.5 -0.20 -0.30 -0.08 1.56 -0.2 -0.33 0.81 -0.03
.
.
Run Code Online (Sandbox Code Playgroud)
我想做什么:
在ID 0和2的基础上,我想用i0到i5训练j0到j5的值.随后应该从ID为1的j0-j5预测NA.
问题:
由于数据不连续(时间步长在i5结束并在j0再次开始),是否可以使用某种回归?
在这个例子中,.fit(X,y)和.predict(X)函数的X和y应该如何?