小编Ib *_*b D的帖子

通过“ OTHER” Python重命名不太频繁的类别

在我的数据框中,我有一些带有100多个不同类别的分类列。我想按最频繁的类别进行排名。我保留前9个最频繁的类别,而较不频繁的类别则通过以下方式自动将其重命名:OTHER

例:

这是我的df:

print(df)

    Employee_number                 Jobrol
0                 1        Sales Executive
1                 2     Research Scientist
2                 3  Laboratory Technician
3                 4        Sales Executive
4                 5     Research Scientist
5                 6  Laboratory Technician
6                 7        Sales Executive
7                 8     Research Scientist
8                 9  Laboratory Technician
9                10        Sales Executive
10               11     Research Scientist
11               12  Laboratory Technician
12               13        Sales Executive
13               14     Research Scientist
14               15  Laboratory Technician
15               16        Sales Executive
16               17     Research Scientist
17               18     Research Scientist
18               19 …
Run Code Online (Sandbox Code Playgroud)

python counter dataframe pandas categorical-data

5
推荐指数
2
解决办法
498
查看次数

在熊猫数据框中随机引入NaN值

考虑到起始数据中已经存在空值,我如何将NaN值随机引入到我的数据集中,用于每列。

我想按列获取例如NaN值的20%。

例如:
如果我在数据集中有3列:每个列都有“ A”,“ B”和“ C”,则我具有NaN值率如何按列随机引入NaN值以达到每列20%:

A: 10% nan
B: 15% nan
C: 8% nan
Run Code Online (Sandbox Code Playgroud)

目前,我尝试使用此代码,但它会使我的数据集降级太多,我认为这不是好方法:

df = df.mask(np.random.choice([True, False], size=df.shape, p=[.20,.80]))
Run Code Online (Sandbox Code Playgroud)

python numpy nan dataframe pandas

5
推荐指数
1
解决办法
1169
查看次数

熊猫广泛的“描述”包括计数空值

我有一个由450列和550000行组成的大型数据框。在列中,我有:

  • 73个浮柱
  • 30列日期
  • 对象中的其余列

我想对我的变量进行描述,但不仅要像往常一样进行描述,还要在同一矩阵中包含其他描述。最终,我们将获得包含450个变量的描述矩阵,然后对以下各项进行详细描述:-dtype-计数-计算空值-无效值的百分比-最大-最小-50%-75%-25% -......

现在,我拥有一个基本功能来描述我的数据,如下所示:

Dataframe.describe(include = 'all')
Run Code Online (Sandbox Code Playgroud)

您是否有功能或方法来进行更广泛的说明。

谢谢。

python pandas

2
推荐指数
1
解决办法
1390
查看次数

标签 统计

pandas ×3

python ×3

dataframe ×2

categorical-data ×1

counter ×1

nan ×1

numpy ×1