我现在正在大学学习数据挖掘课程,但我对多索引排序问题感到有点困惑.
实际数据涉及大约100万部电影评论,我试图根据美国邮政编码分析,但为了测试如何做我想要的,我一直在使用随机生成的250个更小的数据集10个电影的评级,而不是邮政编码,我正在使用年龄组.
所以这就是我现在所拥有的,它是Pandas中的多索引DataFrame,有两个级别,'group'和'title'
rating
group title
Alien 4.000000
Argo 2.166667
Adults Ben-Hur 3.666667
Gandhi 3.200000
... ...
Alien 3.000000
Argo 3.750000
Coeds Ben-Hur 3.000000
Gandhi 2.833333
... ...
Alien 2.500000
Argo 2.750000
Kids Ben-Hur 3.000000
Gandhi 3.200000
... ...
Run Code Online (Sandbox Code Playgroud)
我的目标是根据他们在小组中的评分对标题进行排序(并且只显示每组中最受欢迎的5个左右的标题)
这样的事情(但我只会在每组中显示两个标题):
rating
group title
Alien 4.000000
Adults Ben-Hur 3.666667
Argo 3.750000
Coeds Alien 3.000000
Gandhi 3.200000
Kids Ben-Hur 3.000000
Run Code Online (Sandbox Code Playgroud)
有人知道怎么做吗?我已经尝试过sort_order,sort_index等并交换关卡,但他们也混淆了这些组.所以它看起来像:
rating
group title
Adults Alien 4.000000
Coeds Argo 3.750000
Adults Ben-Hur 3.666667
Kids Gandhi 3.666667
Coeds Alien 3.000000
Kids Ben-Hur …Run Code Online (Sandbox Code Playgroud)