PySpark计算相关性

Question

PySpark计算相关性

VJu*_*une 10 python apache-spark apache-spark-sql pyspark apache-spark-mllib

我想使用pyspark.mllib.stat.Statistics.corr函数来计算两列pyspark.sql.dataframe.DataFrame对象之间的相关性.corr函数需要采取rdd的Vectors对象.如何将一列df['some_name']转换rdd为Vectors.dense对象？

Answer 1

zer*_*323 13

应该没有必要.对于数字,您可以使用DataFrameStatFunctions.corr以下方法直接计

df1 = sc.parallelize([(0.0, 1.0), (1.0, 0.0)]).toDF(["x", "y"])
df1.stat.corr("x", "y")
# -1.0

Run Code Online (Sandbox Code Playgroud)

否则你可以使用VectorAssembler:

from pyspark.ml.feature import VectorAssembler

assembler = VectorAssembler(inputCols=df.columns, outputCol="features")
assembler.transform(df).select("features").flatMap(lambda x: x)

Run Code Online (Sandbox Code Playgroud)

它只支持皮尔逊。 (2认同)

Answer 2

MUK*_*MUK 6

df.stat.corr("column1","column2")

归档时间：	9 年，4 月前
查看次数：	11381 次
最近记录：	6 年，9 月前