我是熊猫的新手,我想知道如何通过仅提取部分行来清理数据.假设我有一个数据帧,如下所示:
column1 date key
A 2016 SB
A 2017 B
B 2015 SB
C 2014 SB
C 2014 PB
C 2015 B
C 2016 SB
Run Code Online (Sandbox Code Playgroud)
我如何清理数据,使得对于每个相同的column1值,我只提取前两行值并忽略其余值(例如在C值上,只有2014 SB和2014 PB是我得到的)?
column1 date key
A 2016 SB
A 2017 B
B 2015 SB
C 2014 SB
C 2014 PB
Run Code Online (Sandbox Code Playgroud)
谢谢
你需要GroupBy.head,也检查文档:
df = df.groupby('column1').head(2)
print (df)
column1 date key
0 A 2016 SB
1 A 2017 B
2 B 2015 SB
3 C 2014 SB
4 C 2014 PB
Run Code Online (Sandbox Code Playgroud)