连接pandas中相同索引的行值

Question

连接pandas中相同索引的行值

我的初始DataFrame如下所示:

   A    B  quantity
0  1  foo         1
1  1  baz         2
2  1  bar         2
3  1  faz         1
4  2  foo         2
5  2  bar         1
6  3  foo         3

Run Code Online (Sandbox Code Playgroud)

我需要用'A'对它进行分组,然后列出'B'乘以'quantity':

   A                               B
0  1  [foo, baz, baz, bar, bar, faz]
1  2                 [foo, foo, bar]
2  3                 [foo, foo, foo]

Run Code Online (Sandbox Code Playgroud)

目前我正在使用groupby()然后apply():

def itemsToList(tdf, column):

    collist = []
    for row in tdf[column].iteritems():
        collist = collist + tdf['quantity'][row[0]]*[row[1]]

    return pd.Series({column: collist})

gb = df.groupby('A').apply(itemsToList, 'B')

Run Code Online (Sandbox Code Playgroud)

我怀疑这是一种有效的方式,所以我正在寻找一种好的"熊猫"方法来实现这一目标.

Answer 1

EdC*_*ica 5

这可以分两步完成，生成一个新列来创建扩展的 str 值，然后groupby在 'A' 和这个新列上：apply list

In [62]:
df['expand'] = df.apply(lambda x: ','.join([x['B']] * x['quantity']), axis=1)
df.groupby('A')['expand'].apply(list)

Out[62]:
A
1    [foo, baz,baz, bar,bar, faz]
2                  [foo,foo, bar]
3                   [foo,foo,foo]
Name: expand, dtype: object

Run Code Online (Sandbox Code Playgroud)

编辑

服用后确定的灵感来自@Jianxun李的回答是：

In [130]:
df.groupby('A').apply(lambda x: np.repeat(x['B'].values, x['quantity']).tolist())

Out[130]:
A
1    [foo, baz, baz, bar, bar, faz]
2                   [foo, foo, bar]
3                   [foo, foo, foo]
dtype: object

Run Code Online (Sandbox Code Playgroud)

这也有效：

In [131]:
df.groupby('A').apply(lambda x: list(np.repeat(x['B'].values, x['quantity'])))

Out[131]:
A
1    [foo, baz, baz, bar, bar, faz]
2                   [foo, foo, bar]
3                   [foo, foo, foo]
dtype: object

Run Code Online (Sandbox Code Playgroud)

归档时间：	10 年，6 月前
查看次数：	4984 次
最近记录：	10 年，6 月前