概率与机器学习

Question

我正在使用 python 进行一些机器学习。

我有一个包含 2000 个条目的 python nd 数组。每个条目都包含有关某些主题的信息，最后有一个布尔值来告诉我他们是否是吸血鬼。

数组中的每个条目如下所示：

[height(cm), weight(kg), stake aversion, garlic aversion, reflectance, shiny, IS_VAMPIRE?]

我的目标是根据上面显示的对象数据，能够给出新对象是吸血鬼的概率。

我使用 sklearn 为我做了一些机器学习：

clf = tree.DecisionTreeRegressor()

clf=clf.fit(X,Y)


print clf.predict(W)

其中 W 是新主题的数据数组。我编写的脚本返回布尔值，但我希望它返回概率。我该如何修改它？

Answer 1

使用 DecisionTreeClassifier 而不是回归器，并使用该predict_proba方法。或者，您可以使用逻辑回归（也可在 scikit learn 中使用。）

基本思想是这样的：

clf = tree.DecisionTreeClassifier()

clf=clf.fit(X,Y)


print clf.predict_proba(W)