小编fox*_*lee的帖子

处理 sklearn.tree.DecisionTreeClassifier 中的连续变量

我很好奇如何sklearn处理连续变量sklearn.tree.DecisionTreeClassifier?我尝试使用一些连续变量而不使用 进行预处理DecisionTreeClassifier,但它获得了可接受的精度。

下面是一种将连续变量转换为分类变量的方法,但它不能获得相同的精度。

def preprocess(data, min_d, max_d, bin_size=3):

    norm_data = np.clip((data - min_d) / (max_d - min_d), 0, 1)
    categorical_data = np.floor(bin_size*norm_data).astype(int)
    return categorical_data


X = preprocess(X, X.min(), X.max(), 3)
Run Code Online (Sandbox Code Playgroud)

python machine-learning decision-tree python-3.x scikit-learn

2
推荐指数
1
解决办法
4156
查看次数