错误:分类指标无法处理多类多输出和多标签指标目标的混合

Los*_*san 9 python cross-validation multilabel-classification

我是机器学习的新手。

我正在尝试进行多标签文本分类。我有这些文档的原始标签以及分类结果(使用 mlknn 分类器)表示为一种热编码(19000 文档 x 200 标签)。现在我正在尝试使用 f1_score micro 和 macro 来评估分类,但是我收到了这个错误(在第 3 行)ValueError: Classification metrics can't handle a mix of multiclass-multioutput and multilabel-indicator targets,我不知道如何解决它。这是我的代码:

1. y_true = np.loadtxt("target_matrix.txt")
2. y_pred = np.loadtxt("classification_results.txt")

3. print (f1_score(y_true, y_pred, average='macro'))
4. print (f1_score(y_true, y_pred, average='micro'))
Run Code Online (Sandbox Code Playgroud)

我还尝试使用cross_val_score分类来立即进行评估,但遇到了另一个错误(来自cross_val_score行):

File "_csparsetools.pyx", line 20, in scipy.sparse._csparsetools.lil_get1
File "_csparsetools.pyx", line 48, in scipy.sparse._csparsetools.lil_get1
IndexError: column index (11) out of bounds
Run Code Online (Sandbox Code Playgroud)

这是我的代码:

X = np.loadtxt("docvecs.txt", delimiter=",")
y = np.loadtxt("target_matrix.txt", dtype='int')

cv_scores = []
mlknn = MLkNN(k=10)  
scores = cross_val_score(mlknn, X, y, cv=5, scoring='f1_micro')
cv_scores.append(scores)
Run Code Online (Sandbox Code Playgroud)

非常感谢任何一个错误的帮助,谢谢。

Los*_*san 5

我手动创建了 y 数组,这似乎是我的错误。我现在MultiLabelBinarizer用来创建它,如下例所示,现在它可以工作了:

train_foo = [['sci-fi', 'thriller'],['comedy'],['sci-fi', 'thriller'],['comedy']]
mlb = MultiLabelBinarizer()
mlb_label_train = mlb.fit_transform(train_foo)

X = np.loadtxt("docvecs.txt", delimiter=",")
cv_scores = []
mlknn = MLkNN(k=3) 
scores = cross_val_score(mlknn, X, mlb_label_train, cv=5, scoring='f1_macro')
cv_scores.append(scores)
Run Code Online (Sandbox Code Playgroud)

您可以在MultiLabelBinarizer 此处找到文档。