在我的数据框中,我有一些带有100多个不同类别的分类列。我想按最频繁的类别进行排名。我保留前9个最频繁的类别,而较不频繁的类别则通过以下方式自动将其重命名:OTHER
例:
这是我的df:
print(df)
Employee_number Jobrol
0 1 Sales Executive
1 2 Research Scientist
2 3 Laboratory Technician
3 4 Sales Executive
4 5 Research Scientist
5 6 Laboratory Technician
6 7 Sales Executive
7 8 Research Scientist
8 9 Laboratory Technician
9 10 Sales Executive
10 11 Research Scientist
11 12 Laboratory Technician
12 13 Sales Executive
13 14 Research Scientist
14 15 Laboratory Technician
15 16 Sales Executive
16 17 Research Scientist
17 18 Research Scientist
18 19 …Run Code Online (Sandbox Code Playgroud) 考虑到起始数据中已经存在空值,我如何将NaN值随机引入到我的数据集中,用于每列。
我想按列获取例如NaN值的20%。
例如:
如果我在数据集中有3列:每个列都有“ A”,“ B”和“ C”,则我具有NaN值率如何按列随机引入NaN值以达到每列20%:
A: 10% nan
B: 15% nan
C: 8% nan
Run Code Online (Sandbox Code Playgroud)
目前,我尝试使用此代码,但它会使我的数据集降级太多,我认为这不是好方法:
df = df.mask(np.random.choice([True, False], size=df.shape, p=[.20,.80]))
Run Code Online (Sandbox Code Playgroud) 我有一个由450列和550000行组成的大型数据框。在列中,我有:
我想对我的变量进行描述,但不仅要像往常一样进行描述,还要在同一矩阵中包含其他描述。最终,我们将获得包含450个变量的描述矩阵,然后对以下各项进行详细描述:-dtype-计数-计算空值-无效值的百分比-最大-最小-50%-75%-25% -......
现在,我拥有一个基本功能来描述我的数据,如下所示:
Dataframe.describe(include = 'all')
Run Code Online (Sandbox Code Playgroud)
您是否有功能或方法来进行更广泛的说明。
谢谢。