将分类数据传递给Sklearn决策树

Question

将分类数据传递给Sklearn决策树

0xh*_*fff 58 python decision-tree scikit-learn

关于如何将分类数据编码为Sklearn Decission树有几篇帖子,但是从Sklearn文档中我们得到了这些

决策树的一些优点是:

(......)

能够处理数字和分类数据.其他技术通常专门用于分析仅具有一种变量类型的数据集.有关更多信息,请参阅算法

但是运行以下脚本

import pandas as pd
from sklearn.tree import DecisionTreeClassifier

data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data['B'] = ['b','b','a','b']
data['C'] = [0, 0, 1, 0]
data['Class'] = ['n','n','y','n']

tree = DecisionTreeClassifier()
tree.fit(data[['A','B','C']], data['Class'])

Run Code Online (Sandbox Code Playgroud)

输出以下错误:

Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "/usr/local/lib/python2.7/site-packages/sklearn/tree/tree.py", line 154, in fit
    X = check_array(X, dtype=DTYPE, accept_sparse="csc")
  File "/usr/local/lib/python2.7/site-packages/sklearn/utils/validation.py", line 377, in check_array
    array = np.array(array, dtype=dtype, order=order, copy=copy)
ValueError: could not convert string to float: b

Run Code Online (Sandbox Code Playgroud)

我知道在R中可以传递分类数据,Sklearn是否可能？

Answer 1

Jam*_*ers 19

（这只是我从2016年开始的上述评论的格式，它仍然成立。）

该问题的公认答案具有误导性。

就目前而言，sklearn决策树不处理分类数据- 请参阅问题＃5442。

推荐的使用标签编码的方法将转换为DecisionTreeClassifier()将被视为数字的整数。如果您的分类数据不是序数，那么这不好-您将得到没有意义的拆分。

使用a OneHotEncoder是当前唯一有效的方法，它允许任意分割而不依赖于标签顺序，但计算量大。

OneHotEncoding 显然会恶化决策树的性能，因为它会导致特征极其稀疏，这可能会扰乱特征重要性 https://roamanalytics.com/2016/10/28/are-categorical-variables-getting-lost-in-your -随机森林/ (3认同)
同意 - 我不推荐这种方法，但这是避免我目前描述的问题的唯一方法。 (3认同)
我怀疑在某些情况下（具有许多小级别的特征），在有序编码的分类特征上的“无意义”分割仍然比在单热编码特征上的非常有限的分割产生更好的性能。 (2认同)
更新：此 Pull 请求（以及其中的讨论）可能会引起兴趣：https://github.com/scikit-learn/scikit-learn/pull/12866 (2认同)

Answer 2

Gui*_*ume 7

（..）

能够处理数字和分类数据。

这仅意味着您可以使用

分类问题的DecisionTreeClassifier类
用于回归的DecisionTreeRegressor类。

无论如何，在使用sklearn拟合树之前，您需要对分类变量进行一次热编码，如下所示：

import pandas as pd
from sklearn.tree import DecisionTreeClassifier

data = pd.DataFrame()
data['A'] = ['a','a','b','a']
data['B'] = ['b','b','a','b']
data['C'] = [0, 0, 1, 0]
data['Class'] = ['n','n','y','n']

tree = DecisionTreeClassifier()

one_hot_data = pd.get_dummies(data[['A','B','C']],drop_first=True)
tree.fit(one_hot_data, data['Class'])

Run Code Online (Sandbox Code Playgroud)

您可能想玩转 'pd.get_dummies' ，例如选项 'drop_first = True' 可以帮助避免多重共线性问题。[这里](https://www.youtube.com/watch?v=0s_1IsROgDc) 有一个很好的教程。 (2认同)

Answer 3

小智 7

对于名义分类变量，我不会使用LabelEncoderbut sklearn.preprocessing.OneHotEncoder或pandas.get_dummies代替，因为这些类型的变量通常没有顺序。

Answer 4

Bor*_*per 6

从v0.24.0开始，scikit 支持在HistGradientBoostingClassifier和HistGradientBoostingRegressor 中使用分类特征！

要启用分类支持，可以将布尔掩码传递给 categorical_features 参数，指示哪个特征是分类的。在下文中，第一个特征将被视为分类特征，第二个特征将被视为数值特征：
>>> gbdt = HistGradientBoostingClassifier(categorical_features=[True, False])
Run Code Online (Sandbox Code Playgroud)
同样，可以传递指示分类特征索引的整数列表：
>>> gbdt = HistGradientBoostingClassifier(categorical_features=[0])
Run Code Online (Sandbox Code Playgroud)

您仍然需要对字符串进行编码，否则您将收到“无法将字符串转换为浮点数”错误。有关使用将字符串转换为整数的示例，请参阅此处。OrdinalEncoder

Answer 5

小智 5

与接受的答案相反,我更倾向于使用Scikit-Learn提供的工具来实现此目的.这样做的主要原因是它们可以很容易地集成到管道中.

Scikit-Learn本身提供了非常好的类来处理分类数据.你不想编写自定义函数,你应该使用LabelEncoder它专门为此设计的.

请参阅文档中的以下代码:

from sklearn import preprocessing
le = preprocessing.LabelEncoder()
le.fit(["paris", "paris", "tokyo", "amsterdam"])
le.transform(["tokyo", "tokyo", "paris"])

Run Code Online (Sandbox Code Playgroud)

这会自动将它们编码为机器学习算法的数字.现在这也支持从整数返回字符串.你可以通过简单地调用inverse_transform如下来做到这一点:

list(le.inverse_transform([2, 2, 1]))

Run Code Online (Sandbox Code Playgroud)

这会回来['tokyo', 'tokyo', 'paris'].

另请注意,对于许多其他分类器,除了逻辑回归或SVM等决策树之外,您还希望使用One-Hot编码对分类变量进行编码.Scikit-learn也通过OneHotEncoder课程支持这一点.

希望这可以帮助!

-1这是误导.目前,sklearn决策树不处理分类数据 - [见问题#5442](https://github.com/scikit-learn/scikit-learn/issues/5442).这种使用Label Encoding的方法转换为`DecisionTreeClassifier()`**将视为数字**的整数.如果你的分类数据不是序数,那就不好 - 你最终会得到没有意义的分裂.使用`OneHotEncoder`是目前唯一有效的方法,但计算量很大. (118认同)
这极具误导性.请不要将字符串转换为数字并在决策树中使用.在scikit-learn中无法处理分类数据.一种选择是在Spark中使用决策树分类器 - 您可以在其中明确声明分类特征及其常规.有关详细信息,请参阅此处https://github.com/scikit-learn/scikit-learn/pull/4899 (14认同)
每个人都必须学习度量标度，即标称，有序，间隔和比率标度。数字并不意味着它在名义尺度上是数字。它只是一个标志。例如，我们可以使用1表示红色，2表示蓝色，3表示绿色。假设有10个人喜欢红色，而10个人喜欢绿色。计算平均值（（10 * 1 + 10 * 3）/ 20 = 2）并声明平均偏爱Blue是有意义的吗？ (4认同)
嗯...我不知道它有那么多关注。干杯@ayorgo，会的！ (2认同)

归档时间：	9 年，8 月前
查看次数：	48986 次
最近记录：	6 年，5 月前