pandas concat ignore_index不起作用

muo*_*uon 43 python concat append pandas

我试图对数据帧进行列绑定并遇到熊猫问题concat,因为ignore_index=True似乎不起作用:

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 2, 3,4])

df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D2': ['D4', 'D5', 'D6', 'D7']},
                    index=[ 5, 6, 7,3])
df1
#     A   B   D
# 0  A0  B0  D0
# 2  A1  B1  D1
# 3  A2  B2  D2
# 4  A3  B3  D3

df2
#    A1   C  D2
# 5  A4  C4  D4
# 6  A5  C5  D5
# 7  A6  C6  D6
# 3  A7  C7  D7

dfs = [df1,df2]
df = pd.concat( dfs,axis=1,ignore_index=True)     
print df   
Run Code Online (Sandbox Code Playgroud)

结果是

     0    1    2    3    4    5    
0   A0   B0   D0  NaN  NaN  NaN  
2   A1   B1   D1  NaN  NaN  NaN    
3   A2   B2   D2   A7   C7   D7   
4   A3   B3   D3  NaN  NaN  NaN  
5  NaN  NaN  NaN   A4   C4   D4  
6  NaN  NaN  NaN   A5   C5   D5  
7  NaN  NaN  NaN   A6   C6   D6           
Run Code Online (Sandbox Code Playgroud)

即使我使用重置索引

 df1.reset_index()    
 df2.reset_index() 
Run Code Online (Sandbox Code Playgroud)

然后试试

pd.concat([df1,df2],axis=1) 
Run Code Online (Sandbox Code Playgroud)

它仍然产生相同的结果!

cel*_*cel 57

如果我理解正确,这就是你想要做的.

import pandas as pd

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 2, 3,4])

df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D2': ['D4', 'D5', 'D6', 'D7']},
                    index=[ 4, 5, 6 ,7])


df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)

df = pd.concat( [df1, df2], axis=1) 
Run Code Online (Sandbox Code Playgroud)

这使:

    A   B   D   A1  C   D2
0   A0  B0  D0  A4  C4  D4
1   A1  B1  D1  A5  C5  D5
2   A2  B2  D2  A6  C6  D6
3   A3  B3  D3  A7  C7  D7
Run Code Online (Sandbox Code Playgroud)

实际上,我原本预计会df = pd.concat(dfs,axis=1,ignore_index=True)得到相同的结果.

这是jreback的优秀解释:

ignore_index=True'忽略',意思是不在连接轴上对齐.它只是按照它们传递的顺序将它们粘贴在一起,然后重新分配实际索引的范围(例如range(len(index))),以便加入非重叠索引(假设axis=1在示例中)之间的差异是ignore_index=False(默认值),你得到索引的concat,并ignore_index=True得到一个范围.

  • 我碰巧尝试了自己,如果我之前看到这个,可以节省几个小时:).谢谢......`df = pd.concat([df1.reset_index(drop = True),df2.reset_index(drop = True)],axis = 1) (4认同)
  • @mau,我已经更新了答案,现在使用`pd.reset_index()`。我认为这是一种更清洁的方法。 (2认同)

elj*_*o67 26

如果您想保留左侧数据框的索引,请使用以下命令将 df2 的索引设置为 df1 set_index

pd.concat([df1, df2.set_index(df1.index)], axis=1)
Run Code Online (Sandbox Code Playgroud)


Ale*_*lex 14

ignore_index选项在您的示例中起作用,您只需要知道它忽略了连接轴,在您的情况下是列.(也许更好的名称是ignore_labels.)如果希望连接忽略索引标签,则必须将轴变量设置为0(默认值).


Dic*_*ter 7

Agree with the comments, always best to post expected output.

Is this what you are seeking?

df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
                    'B': ['B0', 'B1', 'B2', 'B3'],
                    'D': ['D0', 'D1', 'D2', 'D3']},
                    index=[0, 2, 3,4])

df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
                    'C': ['C4', 'C5', 'C6', 'C7'],
                    'D2': ['D4', 'D5', 'D6', 'D7']},
                    index=[ 5, 6, 7,3])


df1 = df1.transpose().reset_index(drop=True).transpose()
df2 = df2.transpose().reset_index(drop=True).transpose()


dfs = [df1,df2]
df = pd.concat( dfs,axis=0,ignore_index=True)

print df



    0   1   2
0  A0  B0  D0
1  A1  B1  D1
2  A2  B2  D2
3  A3  B3  D3
4  A4  C4  D4
5  A5  C5  D5
6  A6  C6  D6
7  A7  C7  D7
Run Code Online (Sandbox Code Playgroud)


Mic*_*ner 5

您可以使用 numpy 的连接来实现结果。

cols = df1.columns.to_list() + df2.columns.to_list()
dfs = [df1,df2]
df = np.concatenate(dfs, axis=1)  
df = pd.DataFrame(df, columns=cols)

Out[1]: 
    A   B   D  A1   C  D2
0  A0  B0  D0  A4  C4  D4
1  A1  B1  D1  A5  C5  D5
2  A2  B2  D2  A6  C6  D6
3  A3  B3  D3  A7  C7  D7
Run Code Online (Sandbox Code Playgroud)