合并以相同字母开头的pandas DataFrame列

Question

合并以相同字母开头的pandas DataFrame列

U10*_*ard 7 python merge dataframe pandas

假设我有一个DataFrame：

>>> df = pd.DataFrame({'a1':[1,2],'a2':[3,4],'b1':[5,6],'b2':[7,8],'c':[9,0]})
>>> df
   a1  a2  b1  b2  c
0   1   3   5   7  9
1   2   4   6   8  0
>>>

Run Code Online (Sandbox Code Playgroud)

我想合并（也许不是合并，而是串连），其中他们的名字的第一个字母是相等的列，如a1和a2等......但我们看到，有一个c列是本身没有任何其他类似的人，因此，我希望他们不要抛出错误，而是将NaNs 添加到他们。

我想以某种方式将其合并，从而将一个宽范围更改DataFrame为一个长范围DataFrame，基本上就像一个宽范围到长范围的修改一样。

我已经有解决问题的方法，但是唯一的问题是它的效率很低，我想要一个更高效，更快速的解决方案（与我的：P不同），我目前有一个for循环和一个try except（嗯，听起来已经很糟糕了）这样的代码如：

>>> df2 = pd.DataFrame()
>>> for i in df.columns.str[:1].unique():
    try:
        df2[i] = df[[x for x in df.columns if x[:1] == i]].values.flatten()
    except:
        l = df[[x for x in df.columns if x[:1] == i]].values.flatten().tolist()
        df2[i] = l + [pd.np.nan] * (len(df2) - len(l))


>>> df2
   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN
>>>

Run Code Online (Sandbox Code Playgroud)

我希望通过更好的代码获得相同的结果。

Answer 1

cs9*_*s95 5

我建议melt，其次是pivot。要解决重复项，您需要以 cumcounted 列为数据透视表。

u = df.melt()
u['variable'] = u['variable'].str[0]  # extract the first letter
u.assign(count=u.groupby('variable').cumcount()).pivot('count', 'variable', 'value')

variable    a    b    c
count                  
0         1.0  5.0  9.0
1         2.0  6.0  0.0
2         3.0  7.0  NaN
3         4.0  8.0  NaN

Run Code Online (Sandbox Code Playgroud)

这可以重写为，

u = df.melt()
u['variable'] = [x[0] for x in u['variable']]
u.insert(0, 'count', u.groupby('variable').cumcount())

u.pivot(*u)

variable    a    b    c
count                  
0         1.0  5.0  9.0
1         2.0  6.0  0.0
2         3.0  7.0  NaN
3         4.0  8.0  NaN

Run Code Online (Sandbox Code Playgroud)

如果性能很重要，这里有一个替代方案pd.concat：

from operator import itemgetter

pd.concat({
    k: pd.Series(g.values.ravel()) 
    for k, g in df.groupby(operator.itemgetter(0), axis=1)
}, axis=1)

   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN

Run Code Online (Sandbox Code Playgroud)

Answer 2

jez*_*ael 3

使用字典理解：

df = pd.DataFrame({i: pd.Series(x.to_numpy().ravel()) 
                      for i, x in df.groupby(lambda x: x[0], axis=1)})
print (df)
   a  b    c
0  1  5  9.0
1  3  7  0.0
2  2  6  NaN
3  4  8  NaN

Run Code Online (Sandbox Code Playgroud)

归档时间：	6 年，5 月前
查看次数：	465 次
最近记录：	6 年，5 月前