的背景
我有一个模拟人口数据集.它们具有以下属性
df.head()
Age Race Gender in_population
0 32 0 0 1
1 53 0 0 1
2 49 0 1 1
3 12 0 0 1
4 28 0 0 1
Run Code Online (Sandbox Code Playgroud)
还有另一个变量将个体标识为"In_Population"*,它是一个布尔变量.我在pandas中使用groupby将3个属性的可能组合分组,通过对每个可能类别的人中的"In_Population"变量求和来计算计数表.
有2个性别*5个种族*121个年龄= 1210个可能的群体,每个人口中都会受到影响.
如果特定年份中的特定人群没有成员(例如0岁男性"其他"),那么我仍然希望该组显示在我的分组数据框中,但计数为零.这在以下数据样本中正确发生(Age = 0,Gender = {0,1},Race = 4).在这方面没有"其他"零岁的孩子
grouped_obj = df.groupby( ['Age','Gender','Race'] )
groupedAGR = grouped_obj.sum()
groupedAGR.head(10)
in_population
Age Gender Race
0 0 0 16
1 8
2 63
3 5
4 0
1 0 22
1 4
2 64
3 …Run Code Online (Sandbox Code Playgroud)