如何在Apache Spark中编码分类功能

use*_*838 5 scala apache-spark apache-spark-1.2 apache-spark-mllib

我有一组数据,我想根据这些数据创建一个分类模型.每行都有以下形式:

user1,class1,product1
user1,class1,product2
user1,class1,product5
user2,class1,product2
user2,class1,product5
user3,class2,product1
Run Code Online (Sandbox Code Playgroud)

大约有1M个用户,2个类和1M个产品.我接下来要做的是创建稀疏向量(MLlib已经支持的东西)但为了应用该函数,我必须首先创建密集向量(使用0).换句话说,我必须将数据二进制化.这样做最简单(或最优雅)的方式是什么?

鉴于我是MLlib的新手,请问您提供一个具体的例子?我正在使用MLlib 1.2.

编辑

我最终得到了以下一段代码,但事实证明是非常慢......除了提供我只能使用MLlib 1.2之外的任何其他想法?

val data = test11.map(x=> ((x(0) , x(1)) , x(2))).groupByKey().map(x=> (x._1 , x._2.toArray)).map{x=>
  var lt : Array[Double] = new Array[Double](test12.size)
  val id = x._1._1
  val cl = x._1._2
  val dt = x._2
  var i = -1
  test12.foreach{y => i += 1; lt(i) = if(dt contains y) 1.0 else 0.0}
  val vs = Vectors.dense(lt)
  (id , cl , vs)
}
Run Code Online (Sandbox Code Playgroud)

hui*_*ker 9

你可以使用spark.ml的OneHotEncoder.

你首先使用:

OneHotEncoder.categories(rdd, categoricalFields)
Run Code Online (Sandbox Code Playgroud)

包含分类数据categoricalField的索引序列在哪里RDD.categories,给定数据集和作为分类变量的列索引,返回一个结构,对于每个字段,该结构描述数据集中存在的值.该映射旨在用作编码方法的输入:

OneHotEncoder.encode(rdd, categories)
Run Code Online (Sandbox Code Playgroud)

哪个返回你的矢量化RDD[Array[T]].