我有一个 GroupBy 对象,其行索引为整数。
light worst_injury count
1 5 10217
2 5 4067
3 5 2142
4 5 1690
5 5 25848
6 5 734
9 5 18
Run Code Online (Sandbox Code Playgroud)
我想重新命名行(而不是列!),以便“light”列包含特定字符串:
light worst_injury count
Day 5 10217
Dawn 5 4067
Dusk 5 2142
Dark- lit 5 1690
Dark- unlit 5 25848
Other 5 734
Unknown 5 18
Run Code Online (Sandbox Code Playgroud)
我有一个与每个数字 ['Day'、'Dawn' 等] 相对应的字符串列表,但我不知道如何在 GroupBy 函数调用之前或期间将它们设置为索引。我也尝试过制作数据透视表,但出于同样的原因似乎不可能这样做。
我想我可以编写一个脚本将原始数据更改为这些字符串,而不是数字。这似乎是一种效率较低的方法,但如果在事后或事前无法更改 groupby 对象,我愿意接受该选项。
这是现有的代码;它按光线和每个伤害级别对数据帧进行分组,然后进行计数:
df = pd.read_csv(filename, sep='|', usecols=['crash_deer_involv_assoc', 'worst_injury_in_accident', 'light', 'accident_month'])
for i in range(1,6):
inj = df[(df['worst_injury_in_accident'] == i)]
grouped = inj.groupby(['light','worst_injury_in_accident'])
grouped.agg('count')
Run Code Online (Sandbox Code Playgroud)
IIUC 您可以map通过字典使用d:
#maybe first reset index
df = df.reset_index()
print df
light worst_injury count
0 1 5 10217
1 2 5 4067
2 3 5 2142
3 4 5 1690
4 5 5 25848
5 6 5 734
6 9 5 18
d = {1:'Day',2:'Dawn', 3:'Dusk',4:'Dark- lit',5:'Dark- unlit',6:'Other',9:'Unknown'}
df['light'] = df.light.map(d)
print df
light worst_injury count
0 Day 5 10217
1 Dawn 5 4067
2 Dusk 5 2142
3 Dark- lit 5 1690
4 Dark- unlit 5 25848
5 Other 5 734
6 Unknown 5 18
Run Code Online (Sandbox Code Playgroud)
如果列light是index:
print df
worst_injury count
light
1 5 10217
2 5 4067
3 5 2142
4 5 1690
5 5 25848
6 5 734
9 5 18
d = {1:'Day',2:'Dawn', 3:'Dusk',4:'Dark- lit',5:'Dark- unlit',6:'Other',9:'Unknown'}
df.index = df.index.to_series().map(d)
print df
worst_injury count
light
Day 5 10217
Dawn 5 4067
Dusk 5 2142
Dark- lit 5 1690
Dark- unlit 5 25848
Other 5 734
Unknown 5 18
Run Code Online (Sandbox Code Playgroud)
编辑:
对于聚合,您可以添加参数as_index=False并groupby调用count- 输出很好DataFrame,但reset_index不是必需的:
print df.groupby(['light','worst_injury_in_accident'], as_index=False).count()
Run Code Online (Sandbox Code Playgroud)
另一种选择是 use size(对我来说as_index不起作用,所以你需要 call reset_index)
print df.groupby(['light','worst_injury_in_accident']).size().reset_index(name='count')
Run Code Online (Sandbox Code Playgroud)
顺便说一句,差异:size包括NaN值,count不包括值。
| 归档时间: |
|
| 查看次数: |
6147 次 |
| 最近记录: |