小编apd*_*pds的帖子

Spark ML:使用 ChiSqSelector 进行特征选择后训练中的问题

我是新来的火花。我正在研究一个分类模型,想使用 ChiSqSelector 来选择模型训练的重要特征。但是,当我使用 ChiSqSelector 选择的特征进行训练时,它会引发以下错误:

“IllegalArgumentException:u'Feature 0 被标记为名义(分类),但它没有指定的值数量。”

有趣的是,当我使用任何基于树的算法时,我遇到了上述错误。对于天真偏差和逻辑回归,我没有得到错误。

当我使用 spark 文档中示例代码中提供的数据时,我发现了相同的结果。可以使用 spark 2.1.1 文档中的代码重现该错误:

from pyspark.ml.feature import ChiSqSelector
from pyspark.ml.linalg import Vectors

df = spark.createDataFrame([
    (7, Vectors.dense([0.0, 0.0, 18.0, 1.0]), 1.0,),
    (8, Vectors.dense([0.0, 1.0, 12.0, 0.0]), 0.0,),
    (9, Vectors.dense([1.0, 0.0, 15.0, 0.1]), 0.0,)], ["id", "features", 
"clicked"])
selector = ChiSqSelector(numTopFeatures=2, featuresCol="features",
                     outputCol="selectedFeatures", labelCol="clicked")
result = selector.fit(df).transform(df)
print("ChiSqSelector output with top %d features selected" % 
selector.getNumTopFeatures())
result.show()
from pyspark.ml.classification import DecisionTreeClassifier
dt = DecisionTreeClassifier(labelCol="clicked", 
featuresCol="selectedFeatures")
model = dt.fit(result)
Run Code Online (Sandbox Code Playgroud)

有人在 Apache Spark …

machine-learning feature-selection apache-spark apache-spark-ml apache-spark-mllib

5
推荐指数
1
解决办法
872
查看次数