小编Ora*_*uez的帖子

如何将具有SparseVector列的RDD转换为具有列为Vector的DataFrame

我有一个带有元组值的RDD(String,SparseVector),我想使用RDD创建一个DataFrame.获取(label:string,features:vector)DataFrame,它是大多数ml算法库所需的Schema.我知道可以这样做,因为当给定DataFrame的features列时,HashingTF ml Library会输出一个向量.

temp_df = sqlContext.createDataFrame(temp_rdd, StructType([
        StructField("label", DoubleType(), False),
        StructField("tokens", ArrayType(StringType()), False)
    ]))

#assumming there is an RDD (double,array(strings))

hashingTF = HashingTF(numFeatures=COMBINATIONS, inputCol="tokens", outputCol="features")

ndf = hashingTF.transform(temp_df)
ndf.printSchema()

#outputs 
#root
#|-- label: double (nullable = false)
#|-- tokens: array (nullable = false)
#|    |-- element: string (containsNull = true)
#|-- features: vector (nullable = true)

Run Code Online (Sandbox Code Playgroud)

所以我的问题是,我能以某种方式将(String,SparseVector)的RDD转换为(String,vector)的DataFrame.我试着平常,sqlContext.createDataFrame但没有DataType符合我的需求.

df = sqlContext.createDataFrame(rdd,StructType([ …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark apache-spark-ml apache-spark-mllib

Ora*_*uez

2019 01-11

13
推荐指数

1
解决办法

8073
查看次数

标签统计

apache-spark ×1

apache-spark-ml ×1

apache-spark-mllib ×1

apache-spark-sql ×1

pyspark ×1

如何将具有SparseVector列的RDD转换为具有列为Vector的DataFrame

标签 统计

小编Ora_uez的帖子

标签统计