小编bra*_*son的帖子

具有重复项的类的多标签编码

如何对具有重复项的列表列进行 n-hot 编码?

类似于MultiLabelBinarizer来自 sklearn 的东西,它计算重复类的实例数而不是二值化。

示例输入:

x = pd.Series([['a', 'b', 'a'], ['b', 'c'], ['c','c']])
Run Code Online (Sandbox Code Playgroud)

预期输出:

    a   b   c
0   2   1   0
1   0   1   1
2   0   0   2
Run Code Online (Sandbox Code Playgroud)

python python-3.x scikit-learn pyspark apache-spark-mllib

5
推荐指数
1
解决办法
651
查看次数