Pandas:将单个列中的列表转换为多个列

Sil*_*ily 5 python dataframe pandas categorical-data

我有一个数据框,其中包含由逗号分隔的多个属性的列:

df = pd.DataFrame({'id': [1,2,3], 'labels' : ["a,b,c", "c,a", "d,a,b"]})

   id   labels
0   1   a,b,c
1   2   c,a
2   3   d,a,b
Run Code Online (Sandbox Code Playgroud)

(我知道这不是一个理想的情况,但数据源自外部源.)我想将多属性列转换为多个列,每个标签一个,以便我可以将它们视为分类变量.期望的输出:

    id  a       b       c       d   
0    1  True    True    True    False   
1    2  True    False   True    False   
2    3  True    True    False   True
Run Code Online (Sandbox Code Playgroud)

我可以[a,b,c,d]相当容易地获得所有可能属性()的集合,但无法找出确定给定行是否具有特定属性的方法,而不对每个属性进行逐行迭代.有一个更好的方法吗?

jez*_*ael 9

您可以使用get_dummies,投10boolean通过astype和最后一个concatid:

print df['labels'].str.get_dummies(sep=',').astype(bool)
      a      b      c      d
0  True   True   True  False
1  True  False   True  False
2  True   True  False   True

print pd.concat([df.id, df['labels'].str.get_dummies(sep=',').astype(bool)], axis=1)

   id     a      b      c      d
0   1  True   True   True  False
1   2  True  False   True  False
2   3  True   True  False   True
Run Code Online (Sandbox Code Playgroud)