为sklearn准备可变长度数据

Question

为sklearn准备可变长度数据

由于这是一个复杂的问题（至少对我而言），因此我将尽量保持简短。

我的数据是这样的形式

import pandas as pd
import numpy as np
# edit: a1 and a2 are linked as they are part of the same object
a1 = np.array([[1, 2, 3], [4, 5], [7, 8, 9, 10]])
a2 = np.array([[5, 6, 5], [2, 3], [3, 4, 8, 1]])

b = np.array([6, 15, 24])
y = np.array([0, 1, 1])

df = pd.DataFrame(dict(a1=a1.tolist(),a2=a2.tolist(), b=b, y=y))  


                  a1            a2   b  y
0      [1, 2, 3]     [5, 6, 5]   6  0
1         [4, 5]        [2, 3]  15  1
2  [7, 8, 9, 10]  [3, 4, 8, 1]  24  1

Run Code Online (Sandbox Code Playgroud)

我想在sklearn中使用它进行分类，例如

from sklearn import tree
X = df[['a1', 'a2', 'b']]
Y = df['y']
clf = tree.DecisionTreeClassifier()
clf = clf.fit(X, Y)
print(clf.predict([[2., 2.]]))

Run Code Online (Sandbox Code Playgroud)

但是，尽管大熊猫可以将列表作为条目处理，但sklearn在设计上不能。在此示例clf.fit中ValueError: setting an array element with a sequence.，您将找到很多答案。

但是您如何处理此类数据？

我试图将数据分开到多个列（即a1[0] ... a1[3]-该代码是一个有点冗长），但a1[3]将是空的（NaN，0或任何无效值你认为的）。归因在这里没有意义，因为应该没有价值。

当然，这样的过程对分类的结果有影响，因为该算法可能认为“零”值是有意义的。

如果数据集足够大，那么我认为，可能值得将其分成相等的长度a1。但是此过程可能会降低分类算法的功能，因为的长度a1可能有助于区分类。

我还考虑过使用warm start支持（例如Perceptron）并将其适合于以长度分割的数据的算法a1。但这肯定会失败，不是吗？数据集将具有不同数量的特征，因此我认为会出问题。

当然，必须存在解决此问题的解决方案，而我只是在文档中找不到正确的位置。

Answer 1

epa*_*aro 1

让我们假设这些数字是数字类别。您可以做的是将列“a”转换为一组二进制列，其中每个列对应于“a”的一个可能值。

以您的示例代码为例，我们将：

import pandas as pd
import numpy as np

a = np.array([[1, 2, 3], [4, 5], [7, 8, 9, 10]])
b = np.array([6, 15, 24])
y = np.array([0, 1, 1])

df = pd.DataFrame(dict(a=a.tolist(),b=b,y=y))

from sklearn.preprocessing import MultiLabelBinarizer
MLB = MultiLabelBinarizer()
df_2 = pd.DataFrame(MLB.fit_transform(df['a']), columns=MLB.classes_)
df_2

    1   2   3   4   5   7   8   9   10
0   1   1   1   0   0   0   0   0   0
1   0   0   0   1   1   0   0   0   0
2   0   0   0   0   0   1   1   1   1

Run Code Online (Sandbox Code Playgroud)

然后，我们可以连接旧数据和新数据：

new_df = pd.concat([df_2, df.drop('a',1)],1)

    1   2   3   4   5   7   8   9   10  b   y
0   1   1   1   0   0   0   0   0   0   6   0
1   0   0   0   1   1   0   0   0   0   15  1
2   0   0   0   0   0   1   1   1   1   24  1

Run Code Online (Sandbox Code Playgroud)

请注意，如果您有训练集和测试集，明智的做法是首先将它们连接起来，进行转换，然后再将它们分开。这是因为其中一个数据集可以包含不属于另一个数据集的术语。

希望有帮助

编辑：

如果您担心这可能会使您的 df 太大，那么将 PCA 应用于二值化变量是完全可以的。它将减少基数，同时保持任意数量的方差/相关性。

归档时间：	9 年前
查看次数：	632 次
最近记录：	7 年，2 月前