Geo*_*ler 1 python encoding r binning categorical-data
是否有一些现成可用的库或软件包用于python或R,以减少大型分类因素的级别数?
我想实现类似于R的东西:“ Binning”分类变量,但编码为最常见的前k个因子和“ other”。
R包forcats具有fct_lump()此目的。
library(forcats)
fct_lump(f, n)
其中f的因素n是,要保留的最常见级别数。其余的重新编码为Other。
| 归档时间: | 
 | 
| 查看次数: | 1643 次 | 
| 最近记录: |