U10*_*ard 7 python merge dataframe pandas
假设我有一个DataFrame:
>>> df = pd.DataFrame({'a1':[1,2],'a2':[3,4],'b1':[5,6],'b2':[7,8],'c':[9,0]})
>>> df
a1 a2 b1 b2 c
0 1 3 5 7 9
1 2 4 6 8 0
>>>
Run Code Online (Sandbox Code Playgroud)
我想合并(也许不是合并,而是串连),其中他们的名字的第一个字母是相等的列,如a1和a2等......但我们看到,有一个c列是本身没有任何其他类似的人,因此,我希望他们不要抛出错误,而是将NaNs 添加到他们。
我想以某种方式将其合并,从而将一个宽范围更改DataFrame为一个长范围DataFrame,基本上就像一个宽范围到长范围的修改一样。
我已经有解决问题的方法,但是唯一的问题是它的效率很低,我想要一个更高效,更快速的解决方案(与我的:P不同),我目前有一个for循环和一个try except(嗯,听起来已经很糟糕了)这样的代码如:
>>> df2 = pd.DataFrame()
>>> for i in df.columns.str[:1].unique():
try:
df2[i] = df[[x for x in df.columns if x[:1] == i]].values.flatten()
except:
l = df[[x for x in df.columns if x[:1] == i]].values.flatten().tolist()
df2[i] = l + [pd.np.nan] * (len(df2) - len(l))
>>> df2
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
>>>
Run Code Online (Sandbox Code Playgroud)
我希望通过更好的代码获得相同的结果。
我建议melt,其次是pivot。要解决重复项,您需要以 cumcounted 列为数据透视表。
u = df.melt()
u['variable'] = u['variable'].str[0] # extract the first letter
u.assign(count=u.groupby('variable').cumcount()).pivot('count', 'variable', 'value')
variable a b c
count
0 1.0 5.0 9.0
1 2.0 6.0 0.0
2 3.0 7.0 NaN
3 4.0 8.0 NaN
Run Code Online (Sandbox Code Playgroud)
这可以重写为,
u = df.melt()
u['variable'] = [x[0] for x in u['variable']]
u.insert(0, 'count', u.groupby('variable').cumcount())
u.pivot(*u)
variable a b c
count
0 1.0 5.0 9.0
1 2.0 6.0 0.0
2 3.0 7.0 NaN
3 4.0 8.0 NaN
Run Code Online (Sandbox Code Playgroud)
如果性能很重要,这里有一个替代方案pd.concat:
from operator import itemgetter
pd.concat({
k: pd.Series(g.values.ravel())
for k, g in df.groupby(operator.itemgetter(0), axis=1)
}, axis=1)
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
Run Code Online (Sandbox Code Playgroud)
使用字典理解:
df = pd.DataFrame({i: pd.Series(x.to_numpy().ravel())
for i, x in df.groupby(lambda x: x[0], axis=1)})
print (df)
a b c
0 1 5 9.0
1 3 7 0.0
2 2 6 NaN
3 4 8 NaN
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
465 次 |
| 最近记录: |