熊猫：合并两列名称不同的列？

Question

熊猫：合并两列名称不同的列？

Orv*_*var 3 python merge concatenation dataframe pandas

我正在尝试连接上下两个数据框。不并排连接。

数据帧包含相同的数据，但是，在第一个数据帧中，一列可能具有名称“ObjectType”，而在第二个数据帧中，该列可能具有名称“ObjectClass”。当我做

df_total = pandas.concat ([df0, df1])

Run Code Online (Sandbox Code Playgroud)

df_total 将有两个列名，一个是“ObjectType”，另一个是“ObjectClass”。在这两列中的每一列中，一半的值将是“NaN”。所以我必须手动将这两列合并为一列，这很痛苦。

我可以以某种方式将两列合并为一列吗？我想要一个功能，它可以执行以下操作：

df_total = pandas.merge_many_columns(input=["ObjectType,"ObjectClass"], output=["MyObjectClasses"]

Run Code Online (Sandbox Code Playgroud)

合并两列并创建一个新列。我已经研究过melt() 但它并没有真正做到这一点？

（如果我能指定发生碰撞时会发生什么，比如两列包含值，那么我提供一个 lambda 函数，表示“保留最大值”、“使用平均值”等，这可能会很好)

Answer 1

jez*_*ael 5

我认为您可以先重命名列以对齐两个 DataFrame 中的数据：

df0 = pd.DataFrame({'ObjectType':[1,2,3],
                   'B':[4,5,6],
                   'C':[7,8,9]})

#print (df0)

df1 = pd.DataFrame({'ObjectClass':[1,2,3],
                   'B':[4,5,6],
                   'C':[7,8,9]})

#print (df1)

inputs= ["ObjectType","ObjectClass"]
output= "MyObjectClasses"

#dict comprehension 
d = {x:output for x in inputs}
print (d)
{'ObjectType': 'MyObjectClasses', 'ObjectClass': 'MyObjectClasses'}

df0 = df0.rename(columns=d)
df1 = df1.rename(columns=d)
df_total = pd.concat([df0, df1], ignore_index=True)
print (df_total)
   B  C  MyObjectClasses
0  4  7                1
1  5  8                2
2  6  9                3
3  4  7                1
4  5  8                2
5  6  9                3

Run Code Online (Sandbox Code Playgroud)

编辑：

更简单的是update（工作inplace）：

df = pd.concat([df0, df1])
df['ObjectType'].update(df['ObjectClass'])
print (df)
   B  C  ObjectClass  ObjectType
0  4  7          NaN         1.0
1  5  8          NaN         2.0
2  6  9          NaN         3.0
0  4  7          1.0         1.0
1  5  8          2.0         2.0
2  6  9          3.0         3.0

Run Code Online (Sandbox Code Playgroud)

或者fillna，但随后需要删除原始列：

df = pd.concat([df0, df1])
df["ObjectType"] = df['ObjectType'].fillna(df['ObjectClass'])
df = df.drop('ObjectClass', axis=1)
print (df)
   B  C  ObjectType
0  4  7         1.0
1  5  8         2.0
2  6  9         3.0
0  4  7         1.0
1  5  8         2.0
2  6  9         3.0

Run Code Online (Sandbox Code Playgroud)

df = pd.concat([df0, df1])
df["MyObjectClasses"] = df['ObjectType'].fillna(df['ObjectClass'])
df = df.drop(['ObjectType','ObjectClass'], axis=1)
print (df)
   B  C  MyObjectClasses
0  4  7              1.0
1  5  8              2.0
2  6  9              3.0
0  4  7              1.0
1  5  8              2.0
2  6  9              3.0

Run Code Online (Sandbox Code Playgroud)

编辑1：

时间：

df0 = pd.DataFrame({'ObjectType':[1,2,3],
                   'B':[4,5,6],
                   'C':[7,8,9]})

#print (df0)

df1 = pd.DataFrame({'ObjectClass':[1,2,3],
                   'B':[4,5,6],
                   'C':[7,8,9]})

#print (df1)
df0 = pd.concat([df0]*1000).reset_index(drop=True)
df1 = pd.concat([df1]*1000).reset_index(drop=True)

inputs= ["ObjectType","ObjectClass"]
output= "MyObjectClasses"

#dict comprehension 
d = {x:output for x in inputs}

Run Code Online (Sandbox Code Playgroud)

In [241]: %timeit df_total = pd.concat([df0.rename(columns=d), df1.rename(columns=d)], ignore_index=True)
1000 loops, best of 3: 821 µs per loop

In [240]: %%timeit
     ...: df = pd.concat([df0, df1])
     ...: df['ObjectType'].update(df['ObjectClass'])
     ...: df = df.drop(['ObjectType','ObjectClass'], axis=1)
     ...: 

100 loops, best of 3: 2.18 ms per loop

In [242]: %%timeit
     ...: df = pd.concat([df0, df1])
     ...: df['MyObjectClasses'] = df['ObjectType'].combine_first(df['ObjectClass'])
     ...: df = df.drop(['ObjectType','ObjectClass'], axis=1)
     ...: 
100 loops, best of 3: 2.21 ms per loop

In [243]: %%timeit 
     ...: df = pd.concat([df0, df1])
     ...: df['MyObjectClasses'] = df['ObjectType'].fillna(df['ObjectClass'])
     ...: df = df.drop(['ObjectType','ObjectClass'], axis=1)
     ...: 
100 loops, best of 3: 2.28 ms per loop

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，9 月前
查看次数：	4802 次
最近记录：	8 年，9 月前