如何在WEKA中设置参数以使用SMOTE过滤器平衡数据？

Question

我在WEKA中使用SMOTE过滤器来平衡数据.
我怀疑这两个参数nearestNeighbors和percentage.

nearestNeighbors - 要使用的最近邻居数.
percentage - 要创建的SMOTE实例的百分比.

我应该怎么设置它们？

我认为邻居的数量是它要创建的同步样本的数量.
那么百分比的含义是什么？它应该小于或等于邻居的数量,对吧？是否考虑了合成样本的百分比？

例如:
如果我把10个邻居和200%会发生什么？
谁能给我一些正确使用的例子？

Answer 1

该nearestNeighbors参数表示使用多少个最近邻居实例(当前考虑的实例周围)来构建inbetween合成实例.默认值为5.因此,实际现有实例的5个最近邻居的属性用于计算新的合成实例.

该percentage参数表示许多合成实例如何根据用更少的情况下,多少级创建(默认情况下-你也可以通过设置使用多数类-C选项).默认值为100.这意味着如果您的少数类中有25个实例,则再次从这些实例中创建25个实例(使用它们最近邻居的值).创建了200%的50个合成实例,依此类推.

有关详细信息,请参阅SMOTE的weka文档和Chawla等人的原始论文.2002年,深入解释了整个方法.

对我而言,Weka SMOTE似乎只对实例进行了过采样.因此,您可以使用受监督的SpreadSubsample过滤器,然后对少数类实例进行欠采样.