sam*_*kgp 5 apache-spark apache-spark-sql apache-spark-ml apache-spark-mllib
我有一个逻辑回归 sparkml 管道,其中一个阶段是结合 unigrams、bigrams 和 trigrams。目前,我正在使用矢量汇编器将它们组合起来。矢量汇编器似乎非常昂贵,并且将我的预测时间增加了三倍。有任何想法吗 ?
val unigram = new NGram().setN(1).setInputCol("words").setOutputCol("unigram")
val hashingTFunigram = new HashingTF().setInputCol(unigram.getOutputCol).setOutputCol("tfFeatures").setNumFeatures(5000)
val bigram = new NGram().setN(2).setInputCol("words").setOutputCol("bigram")
val hashingTFbigram = new HashingTF().setInputCol(bigram.getOutputCol).setOutputCol("tfFeaturesbigram").setNumFeatures(5000)
val trigram = new NGram().setN(3).setInputCol("words").setOutputCol("trigram")
val hashingTFtrigram = new HashingTF().setInputCol(trigram.getOutputCol).setOutputCol("tfFeaturestrigram").setNumFeatures(5000)
val assembler = new VectorAssembler()
.setInputCols(Array("tfFeaturesunigram", "tfFeaturesbigram", "tfFeaturestrigram"))
.setOutputCol("tfFeatures")
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
256 次 |
| 最近记录: |