muo*_*uon 43 python concat append pandas
我试图对数据帧进行列绑定并遇到熊猫问题concat
,因为ignore_index=True
似乎不起作用:
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 5, 6, 7,3])
df1
# A B D
# 0 A0 B0 D0
# 2 A1 B1 D1
# 3 A2 B2 D2
# 4 A3 B3 D3
df2
# A1 C D2
# 5 A4 C4 D4
# 6 A5 C5 D5
# 7 A6 C6 D6
# 3 A7 C7 D7
dfs = [df1,df2]
df = pd.concat( dfs,axis=1,ignore_index=True)
print df
Run Code Online (Sandbox Code Playgroud)
结果是
0 1 2 3 4 5
0 A0 B0 D0 NaN NaN NaN
2 A1 B1 D1 NaN NaN NaN
3 A2 B2 D2 A7 C7 D7
4 A3 B3 D3 NaN NaN NaN
5 NaN NaN NaN A4 C4 D4
6 NaN NaN NaN A5 C5 D5
7 NaN NaN NaN A6 C6 D6
Run Code Online (Sandbox Code Playgroud)
即使我使用重置索引
df1.reset_index()
df2.reset_index()
Run Code Online (Sandbox Code Playgroud)
然后试试
pd.concat([df1,df2],axis=1)
Run Code Online (Sandbox Code Playgroud)
它仍然产生相同的结果!
cel*_*cel 57
如果我理解正确,这就是你想要做的.
import pandas as pd
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 4, 5, 6 ,7])
df1.reset_index(drop=True, inplace=True)
df2.reset_index(drop=True, inplace=True)
df = pd.concat( [df1, df2], axis=1)
Run Code Online (Sandbox Code Playgroud)
这使:
A B D A1 C D2
0 A0 B0 D0 A4 C4 D4
1 A1 B1 D1 A5 C5 D5
2 A2 B2 D2 A6 C6 D6
3 A3 B3 D3 A7 C7 D7
Run Code Online (Sandbox Code Playgroud)
实际上,我原本预计会df = pd.concat(dfs,axis=1,ignore_index=True)
得到相同的结果.
这是jreback的优秀解释:
ignore_index=True
'忽略',意思是不在连接轴上对齐.它只是按照它们传递的顺序将它们粘贴在一起,然后重新分配实际索引的范围(例如range(len(index))
),以便加入非重叠索引(假设axis=1
在示例中)之间的差异是ignore_index=False
(默认值),你得到索引的concat,并ignore_index=True
得到一个范围.
elj*_*o67 26
如果您想保留左侧数据框的索引,请使用以下命令将 df2 的索引设置为 df1 set_index
:
pd.concat([df1, df2.set_index(df1.index)], axis=1)
Run Code Online (Sandbox Code Playgroud)
Ale*_*lex 14
ignore_index选项在您的示例中起作用,您只需要知道它忽略了连接轴,在您的情况下是列.(也许更好的名称是ignore_labels.)如果希望连接忽略索引标签,则必须将轴变量设置为0(默认值).
Agree with the comments, always best to post expected output.
Is this what you are seeking?
df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2', 'A3'],
'B': ['B0', 'B1', 'B2', 'B3'],
'D': ['D0', 'D1', 'D2', 'D3']},
index=[0, 2, 3,4])
df2 = pd.DataFrame({'A1': ['A4', 'A5', 'A6', 'A7'],
'C': ['C4', 'C5', 'C6', 'C7'],
'D2': ['D4', 'D5', 'D6', 'D7']},
index=[ 5, 6, 7,3])
df1 = df1.transpose().reset_index(drop=True).transpose()
df2 = df2.transpose().reset_index(drop=True).transpose()
dfs = [df1,df2]
df = pd.concat( dfs,axis=0,ignore_index=True)
print df
0 1 2
0 A0 B0 D0
1 A1 B1 D1
2 A2 B2 D2
3 A3 B3 D3
4 A4 C4 D4
5 A5 C5 D5
6 A6 C6 D6
7 A7 C7 D7
Run Code Online (Sandbox Code Playgroud)
您可以使用 numpy 的连接来实现结果。
cols = df1.columns.to_list() + df2.columns.to_list()
dfs = [df1,df2]
df = np.concatenate(dfs, axis=1)
df = pd.DataFrame(df, columns=cols)
Out[1]:
A B D A1 C D2
0 A0 B0 D0 A4 C4 D4
1 A1 B1 D1 A5 C5 D5
2 A2 B2 D2 A6 C6 D6
3 A3 B3 D3 A7 C7 D7
Run Code Online (Sandbox Code Playgroud)