小编Aur*_*ule的帖子

Python Sklearn - RandomForest和Missing值

我正在尝试在包含缺失值的数据集上执行RandomForest.

我的数据集如下:

train_data = [['1' 'NaN' 'NaN' '0.0127034' '0.0435092']
 ['1' 'NaN' 'NaN' '0.0113187' '0.228205']
 ['1' '0.648' '0.248' '0.0142176' '0.202707']
 ..., 
 ['1' '0.357' '0.470' '0.0328121' '0.255039']
 ['1' 'NaN' 'NaN' '0.00311825' '0.0381745']
 ['1' 'NaN' 'NaN' '0.0332604' '0.2857']]

Run Code Online (Sandbox Code Playgroud)

为了估算"NaN"值,我正在使用:

from sklearn.preprocessing import Imputer

imp=Imputer(missing_values='NaN',strategy='mean',axis=0)
imp.fit(train_data[0::,1::])
new_train_data=imp.transform(train_data)

Run Code Online (Sandbox Code Playgroud)

但是我收到以下错误:

Traceback (most recent call last):
  File "./RandomForest.py", line 72, in <module>
    new_train_data=imp.transform(train_data)
  File "/home/aurore/.local/lib/python2.7/site-packages/sklearn/preprocessing    /imputation.py", line 388, in transform
    values = np.repeat(valid_statistics, n_missing)
  File "/usr/lib/python2.7/dist-packages/numpy/core/fromnumeric.py", line 343, in repeat
    return repeat(repeats, axis)
ValueError: a.shape[axis] != len(repeats) …

Run Code Online (Sandbox Code Playgroud)

python random-forest scikit-learn

Aur*_*ule

2014 08-28

5
推荐指数

1
解决办法

4885
查看次数

标签统计

python ×1

random-forest ×1

scikit-learn ×1

Python Sklearn - RandomForest和Missing值

标签 统计

小编Aur_ule的帖子

标签统计