use*_*941 5 python merge pandas
我在 groupby 之后使用 pd.merge 时遇到问题。这是我的假设:
import pandas as pd
from pandas import DataFrame
import numpy as np
df1 = DataFrame({'key': [1,1,2,2,3,3],
'var11': np.random.randn(6),
'var12': np.random.randn(6)})
df2 = DataFrame({'key': [1,2,3],
'var21': np.random.randn(3),
'var22': np.random.randn(3)})
#group var11 in df1 by key
grouped = df1['var11'].groupby(df1['key'])
# calculate the mean of var11 by key
grouped = grouped.mean()
print grouped
key
1 1.399430
2 0.568216
3 -0.612843
dtype: float64
print grouped.index
Int64Index([1, 2, 3], dtype='int64')
print df2
key var21 var22
0 1 -0.381078 0.224325
1 2 0.836719 -0.565498
2 3 0.323412 -1.616901
df2 = pd.merge(df2, grouped, left_on = 'key', right_index = True)
Run Code Online (Sandbox Code Playgroud)
此时,我得到 IndexError: list index out of range。
使用 groupby 时,分组变量(本例中为“key”)成为结果序列的索引,这就是我指定“right_index = True”的原因。我尝试过其他语法但没有成功。有什么建议吗?
我认为你应该这样做:
In [140]:
df2 = pd.merge(df2,
pd.DataFrame(grouped, columns=['mean']),
left_on='key',
right_index=True)
print df2
key var21 var22 mean
0 1 0.324476 0.701254 0.400313
1 2 -1.270500 0.055383 -0.293691
2 3 0.804864 0.566747 0.628787
[3 rows x 4 columns]
Run Code Online (Sandbox Code Playgroud)
它不起作用的原因是那grouped不是SeriesDataFrame
| 归档时间: |
|
| 查看次数: |
5151 次 |
| 最近记录: |