LabelBinarizer 在多类示例中产生不同的结果

Question

LabelBinarizer 在多类示例中产生不同的结果

mik*_*iku 5 python machine-learning svm scikit-learn one-hot-encoding

执行 scikit-learn 教程中的多类示例时

http://scikit-learn.org/stable/tutorial/basic/tutorial.html#multiclass-vs-multilabel-fitting

我遇到了一个轻微的奇怪现象。

>>> import sklearn
>>> sklearn.__version__
0.19.1

>>> from sklearn.svm import SVC
>>> from sklearn.multiclass import OneVsRestClassifier
>>> from sklearn.preprocessing import LabelBinarizer

>>> X = [[1, 2], [2, 4], [4, 5], [3, 2], [3, 1]]
>>> y = [0, 0, 1, 1, 2] # Three classes

>>> clf = OneVsRestClassifier(estimator=SVC(random_state=0))
>>> clf.fit(X, y).predict(X)
array([0, 0, 1, 1, 2])

Run Code Online (Sandbox Code Playgroud)

这一切都很好。现在使用 one-hot 编码：

>>> y = LabelBinarizer().fit_transform(y)
>>> y
array([[1, 0, 0],
       [1, 0, 0],
       [0, 1, 0],
       [0, 1, 0],
       [0, 0, 1]])

Run Code Online (Sandbox Code Playgroud)

我希望标签二值化器仅对目标进行编码，但不会对分类器产生影响。然而它产生了不同的结果：

>>> clf.fit(X, y).predict(X)
array([[1, 0, 0],
       [1, 0, 0],
       [0, 1, 0],
       [0, 0, 0],
       [0, 0, 0]])

Run Code Online (Sandbox Code Playgroud)

Google Colab 上的笔记本（奇怪的是，相同的代码产生不同的错误）：

https://drive.google.com/file/d/13dZ2aVbKTMgPOxj2SLsas2U2mOoKng2M/view?usp=sharing

Answer 1

Max*_*xim 4

OneVsRestClassifierLabelBinarizer在幕后应用自身（源代码sklearn/multiclass.py）：

def fit(self, X, y):
  ...
  self.label_binarizer_ = LabelBinarizer(sparse_output=True)
  Y = self.label_binarizer_.fit_transform(y)
  Y = Y.tocsc()
  self.classes_ = self.label_binarizer_.classes_

Run Code Online (Sandbox Code Playgroud)

因此不需要额外的手动转换。事实上，它将您的 one-hot 编码解释y为多标签输入。从文档中：

y：（稀疏）类似数组，shape = [n_samples, ], [n_samples, n_classes]

多类别目标。指标矩阵开启多标签分类。

归档时间：	7 年，7 月前
查看次数：	1340 次
最近记录：	7 年，7 月前