减少大类别变量的级别数

Geo*_*ler 1 python encoding r binning categorical-data

是否有一些现成可用的库或软件包用于python或R,以减少大型分类因素的级别数?

我想实现类似于R的东西:“ Binning”分类变量,但编码为最常见的前k个因子和“ other”。

Joe*_*Joe 5

R包forcats具有fct_lump()此目的。

library(forcats)
fct_lump(f, n)
Run Code Online (Sandbox Code Playgroud)

其中f的因素n是,要保留的最常见级别数。其余的重新编码为Other