读取带有列表的熊猫列以创建新的分类列

Question

读取带有列表的熊猫列以创建新的分类列

Kev*_*743 3 python list dataframe pandas

我有一列看起来像这样的字符串

col_1
Spiderman
Abe Lincoln
Superman
Ghandi
Jane Austin
Robert de Niro
Elon Musk
George Bush
Bill Gates
Barak Obama
Anne Frank

Run Code Online (Sandbox Code Playgroud)

我手动浏览了该列，并列出了这些字符的类别列表：

l1 = [ 'Abe Lincoln', 'George Bush', 'Barak Obama']
l2 = ['Spiderman', 'Superman']
l3 = ['AnneFrank', 'Ghandi']

Run Code Online (Sandbox Code Playgroud)

我已经对这些列表做出了规定

dict = {'l1': l1, 'l2': l2,'l3': l3} #and so on

Run Code Online (Sandbox Code Playgroud)

我想做的是通过读取第1列创建一个新列，并根据str（cell）出现在哪个列表中返回一个数字；所以输出将是

 col_1            col2
Spiderman          2
Abe Lincoln        1
Superman           2
Ghandi             3
Jane Austin        4
Robert de Niro     4
Elon Musk          4
George Bush        1
Bill Gates         4
Barak Obama        1
Anne Frank         3

Run Code Online (Sandbox Code Playgroud)

我只是不确定如何使用if / else在定义的函数中使用列表和字典，我什至不确定我是否需要该字典，但我认为确实如此。

我已经尝试过类似的东西

def group(x, dict):
    for key, value in dict:
        if x in key:
             return 1
        else:
             return 0

Run Code Online (Sandbox Code Playgroud)

data [“ group”] = data.col1.apply（group）

现在我知道上面的代码将不起作用（因为它是胡说八道），但是我之前使用过类似的功能来对“性别”列进行分类，但是，我似乎无法理解此代码。

与往常一样，感谢您提供的任何帮助。

Answer 1

jez*_*ael 5

我认为您需要按字典循环并使用keys的值Series.isin进行检查成员资格-在示例数据中获取NaNs，因为在dict中缺少另一个值：

#not use python reserved word dict for variable name
d = {'l1': l1, 'l2': l2,'l3': l3} 

for k, v in d.items():
    df.loc[df['col_1'].isin(v), 'new'] = k
print (df)
             col_1  new
0        spiderman   l2
1      Abe Lincoln   l1
2         superman   l2
3           Ghandi   l3
4      Jane Austin  NaN
5   Robert de Niro  NaN
6        Elon Musk  NaN
7      George Bush   l1
8       Bill Gates  NaN
9      Barak Obama   l1
10      Anne Frank  NaN

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，9 月前
查看次数：	45 次
最近记录：	6 年，9 月前