小编Sam*_*jan的帖子

python spark:使用PCA缩小大多数相关功能

我正在使用带有python的spark 2.2.我正在使用ml.feature模块中的PCA.我正在使用VectorAssembler将我的功能提供给PCA.为了澄清,假设我有一个包含三列col1,col2和col3的表,那么我正在做:

from pyspark.ml.feature import VectorAssembler
assembler = VectorAssembler(inputCols=table.columns, outputCol="features")
df = assembler.transform(table).select("features")
from pyspark.ml.feature import PCA
pca = PCA(k=2, inputCol="features", outputCol="pcaFeatures")
model = pca.fit(df)

Run Code Online (Sandbox Code Playgroud)

这时我运行了2个组件的PCA,我可以看看它的值:

m = model.pc.values.reshape(3, 2)

Run Code Online (Sandbox Code Playgroud)

它对应于3(=我原始表中的列数)行和2(=我的PCA中的组件数)列.我的问题是这里的三行是否与我在上面的向量汇编程序中指定输入列的顺序相同？为进一步澄清,上述矩阵对应于:

          | PC1 | PC2 |
 ---------|-----|-----|
    col1  |     |     |
 ---------|-----|-----|
    col2  |     |     |
 ---------|-----|-----|
    col3  |     |     |
 ---------+-----+-----+

Run Code Online (Sandbox Code Playgroud)

请注意,此处的示例仅为了清楚起见.在我真正的问题中,我正在处理~1600列和一堆选择.我在spark文档中找不到任何明确的答案.我想这样做从原始表中选择最佳列/功能,以根据主要组件训练我的模型.还是有别的/更好的火花ML PCA,我应该看着推断这样的结果？

或者我不能使用PCA,并且必须使用其他技术,如spearman排名等？

machine-learning pca feature-selection apache-spark pyspark

Sam*_*jan

2018 02-01

6
推荐指数

1
解决办法

682
查看次数