Pandas Python：连接具有相同列的数据框

Question

Pandas Python：连接具有相同列的数据框

我有3个具有彼此相同的列名称的数据框。说：

df1
column1   column2   column3
a         b         c
d         e         f


df2
column1   column2   column3
g         h         i
j         k         l


df3
column1   column2   column3
m         n         o
p         q         r

Run Code Online (Sandbox Code Playgroud)

每个数据框具有不同的值，但列相同。我尝试了append和concat，以及合并外部但有错误。这是我尝试过的：

df_final = df1.append(df2, sort=True,ignore_index=True).append2(df3, sort=True,ignore_index=True)

我也尝试过： df_final = pd.concat([df1, df2, df3], axis=1)

但是我得到这个错误： AssertionError: Number of manager items must equal union of block items# manager items: 61, # tot_items: 62

我已经搜索了该错误，但似乎无法理解为什么发生这种情况。任何指导深表感谢！

Answer 1

jez*_*ael 5

我认为在某些或所有DataFrame中重复的列名存在问题。

#simulate error
df1.columns = ['column3','column1','column1']
df2.columns = ['column5','column1','column1']
df3.columns = ['column2','column1','column1']

df_final = pd.concat([df1, df2, df3])

Run Code Online (Sandbox Code Playgroud)

AssertionError：管理器项数必须等于块项的并集＃管理器项：4，＃tot_items：5

您可以找到重复的列名称：

print (df3.columns[df3.columns.duplicated(keep=False)])
Index(['column1', 'column1'], dtype='object')

Run Code Online (Sandbox Code Playgroud)

可能的解决方案是通过列表设置列名称：

df3.columns = ['column1','column2','column3']
print (df3)
  column1 column2 column3
0       m       n       o
1       p       q       r

Run Code Online (Sandbox Code Playgroud)

或删除重复名称重复的列：

df31 = df3.loc[:, ~df3.columns.duplicated()]
print (df31)
  column2 column1
0       m       n
1       p       q

Run Code Online (Sandbox Code Playgroud)

然后concat还是append应该很好用。

原来是这样。非常感谢！！问题是我有很多列，为了更好的可读性，我重命名了一些列，并且由于复制/粘贴我忘记重命名一列，所以我有两个同名的不同列 (2认同)

归档时间：	7 年，1 月前
查看次数：	4357 次
最近记录：	7 年，1 月前