小编K_B*_*_B1的帖子

熊猫:合并没有重复的栏/合并后找到唯一的单词

我有一个要连接某些列的数据框。

我的问题是这些列中的文本可能包含也可能不包含重复信息。我想删除重复项,以便仅保留相关信息。

例如,如果我有一个数据框,例如:

pd.read_csv("animal.csv")

  animal1         animal2        label  
1 cat dog         dolphin        19
2 dog cat         cat            72
3 pilchard 26     koala          26
4 newt bat 81     bat            81
Run Code Online (Sandbox Code Playgroud)

我想合并列,但仅保留每个字符串中的唯一信息。

您可以在第2行中看到,在“ Animal1”和“ Animal2”列中都包含“ cat”。在第3行中,数字26在“ Animal1”和“ Label”列中。而在第4行中,“ Animal2”和“ Label”列中的信息已按顺序包含在“ Animal1”中。

我通过执行以下操作合并列

animals["detail"] = animals["animal1"].map(str) + animals["animal2"].map(str) + animals["label"].map(str)

  animal1         animal2        label        detail  
1 cat dog         dolphin        19           cat dog dolphin 19
2 dog cat         cat            72           dog cat cat 72
3 pilchard 26     koala          26           pilchard 26 koala 26
4 newt bat …
Run Code Online (Sandbox Code Playgroud)

python unique dataframe pandas python-3.5

1
推荐指数
1
解决办法
2411
查看次数

标签 统计

dataframe ×1

pandas ×1

python ×1

python-3.5 ×1

unique ×1