我正在对具有大约 18 个不同类型值的分类列进行一种热编码。我只想为那些出现超过某个阈值(假设为 1%)的值创建新列,并创建另一个名为other values1 如果值不是那些频繁值的列。
other values
我在 Sci-kit 学习中使用 Pandas。我已经探索了 pandasget_dummies和 sci-kit learn's one hot encoder,但无法弄清楚如何将频率较低的值捆绑到一列中。
get_dummies
one hot encoder
python pandas scikit-learn one-hot-encoding
one-hot-encoding ×1
pandas ×1
python ×1
scikit-learn ×1