减少大类别变量的级别数

Question

是否有一些现成可用的库或软件包用于python或R，以减少大型分类因素的级别数？

我想实现类似于R的东西：“ Binning”分类变量，但编码为最常见的前k个因子和“ other”。

Answer 1

R包forcats具有fct_lump()此目的。

library(forcats)
fct_lump(f, n)

其中f的因素n是，要保留的最常见级别数。其余的重新编码为Other。