我有一个包含多个城市的DataFrame,每个月都有多个值。我需要按城市和月份对这些值进行分组,并用NA填充缺少的月份。
按城市和月份工作分组:
self.probes[['city', 'date', 'value']].groupby(['city',pd.Grouper(key='date', freq='M')])
| Munich | 2018-06 | values... |
| Munich | 2018-08 | values... |
| Munich | 2018-09 | values... |
| New York | 2018-06 | values... |
| New York | 2018-07 | values... |
Run Code Online (Sandbox Code Playgroud)
但是我无法设法弥补缺失的几个月。
| Munich | 2018-06 | values... |
| Munich |*2018-07*| NA instead of values |
| Munich | 2018-08 | values... |
| Munich | 2018-09 | values... |
| New York | 2018-06 | values... …
Run Code Online (Sandbox Code Playgroud) 我想连接两个熊猫数据框A
,B
然后按两列对它们进行排序,'geohash'
然后'timestamp'
A
geohash timestamp
0 a2a 15
1 b3a 14
B
geohash timestamp
0 a2b 15
1 b3b 14
Run Code Online (Sandbox Code Playgroud)
后
AB = pd.concat([A,B],ignore_index=True)
AB.sort_values(['geohash','timestamp'])
Run Code Online (Sandbox Code Playgroud)
我预计
AB
geohash timestamp
0 a2a 15
1 a2b 15
2 b3a 14
3 b3b 14
Run Code Online (Sandbox Code Playgroud)
但我得到
AB
geohash timestamp
0 a2a 15
1 b3a 14
2 a2b 14
3 b3b 15
Run Code Online (Sandbox Code Playgroud)
为什么大熊猫AB
不对整个数据框进行排序?