小编H. *_*ena的帖子

每个示例对具有多个类别的分类特征进行编码-sklearn

我正在处理包含类型为特征的电影数据集。数据集中的示例可能同时属于多个流派。因此，它们包含一个类型标签列表。

数据看起来像这样-

    movieId                                         genres
0        1  [Adventure, Animation, Children, Comedy, Fantasy]
1        2                     [Adventure, Children, Fantasy]
2        3                                  [Comedy, Romance]
3        4                           [Comedy, Drama, Romance]
4        5                                           [Comedy]

Run Code Online (Sandbox Code Playgroud)

我想向量化此功能。我已经尝试过LabelEncoder和OneHotEncoder，但是它们似乎无法直接处理这些列表。

我可以手动将其向量化，但是我还有其他相似的功能，其中包含太多的类别。对于那些我更喜欢直接使用FeatureHasher类的方法。

有什么方法可以使这些编码器类在这种功能上工作？还是有更好的方法来表示这样的功能，从而使编码更容易？我很欢迎任何建议。

machine-learning feature-extraction pandas scikit-learn categorical-data

H. *_*ena

lucky-day

1
推荐指数

1
解决办法

465
查看次数