相关疑难解决方法(0)

如何将Vector拆分为列 - 使用PySpark

上下文:我有DataFrame2列:单词和向量.其中"vector"的列类型是VectorUDT.

一个例子:

word    |  vector
assert  | [435,323,324,212...]

Run Code Online (Sandbox Code Playgroud)

我希望得到这个:

word   |  v1 | v2  | v3 | v4 | v5 | v6 ......
assert | 435 | 5435| 698| 356|....

Run Code Online (Sandbox Code Playgroud)

题:

如何使用PySpark为每个维度拆分包含多列向量的列？

提前致谢

python apache-spark apache-spark-sql pyspark apache-spark-ml

sed*_*ben

2019 01-07

32
推荐指数

1
解决办法

2万
查看次数

使用 Spark 规范化列

我有一个包含三列的数据文件，我想规范化最后一列以将 ALS 与 ML（Spark 和 Scala）一起应用，我该怎么做？

这是我的摘录Dataframe：

val view_df = spark.createDataFrame(view_RDD, viewSchema)
val viewdd = view_df.withColumn("userIdTemp", view_df("userId").cast(IntegerType)).drop("userId")
                    .withColumnRenamed("userIdTemp", "userId")
                    .withColumn("productIdTemp", view_df("productId").cast(IntegerType)).drop("productId")
                    .withColumnRenamed("productIdTemp", "productId")
                    .withColumn("viewTemp", view_df("view").cast(FloatType)).drop("view")
                    .withColumnRenamed("viewTemp", "view")`

Run Code Online (Sandbox Code Playgroud)

scala normalize apache-spark spark-dataframe apache-spark-ml

作者

2018 05-04

4
推荐指数

1
解决办法

8343
查看次数