小编Jua*_*vid的帖子

如何获得相关矩阵值pyspark

我有一个相关矩阵计算如下pyspark 2.2:

from pyspark.ml.linalg import Vectors
from pyspark.ml.stat import Correlation
from pyspark.ml.linalg import Vectors
from pyspark.ml.feature import VectorAssembler

datos = sql("""select * from proceso_riesgos.jdgc_bd_train_mn_ingresos""")

Variables_corr= ['ingreso_final_mix','ingreso_final_promedio',
'ingreso_final_mediana','ingreso_final_trimedia','ingresos_serv_q1',
'ingresos_serv_q2','ingresos_serv_q3','prom_ingresos_serv','y_correc']

assembler = VectorAssembler(
inputCols=Variables_corr,
outputCol="features")

datos1=datos.select(Variables_corr).filter("y_correc is not null")
output = assembler.transform(datos)
r1 = Correlation.corr(output, "features")

Run Code Online (Sandbox Code Playgroud)

结果是一个带有变量的数据框,称为"pearson(features):matrix":

Row(pearson(features)=DenseMatrix(20, 20, [1.0, 0.9428, 0.8908, 0.913, 
0.567, 0.5832, 0.6148, 0.6488, ..., -0.589, -0.6145, -0.5906, -0.5534, 
-0.5346, -0.0797, -0.617, 1.0], False))]

Run Code Online (Sandbox Code Playgroud)

我需要获取这些值并将其导出到excel,或者能够操纵结果.列表可能是令人沮丧的.

感谢帮助!!

python apache-spark pyspark

Jua*_*vid

lucky-day

10
推荐指数

2
解决办法

7432
查看次数

如何计算pyspark中每行的某些列的最大值

我在pyspark中使用sqlContext.sql函数读取数据帧.这包含4个数字列,每个客户端包含信息(这是密钥ID).我需要计算每个客户端的最大值并将此值连接到数据框:

+--------+-------+-------+-------+-------+
|ClientId|m_ant21|m_ant22|m_ant23|m_ant24|
+--------+-------+-------+-------+-------+
|       0|   null|   null|   null|   null|
|       1|   null|   null|   null|   null|
|       2|   null|   null|   null|   null|
|       3|   null|   null|   null|   null|
|       4|   null|   null|   null|   null|
|       5|   null|   null|   null|   null|
|       6|     23|     13|     17|      8|
|       7|   null|   null|   null|   null|
|       8|   null|   null|   null|   null|
|       9|   null|   null|   null|   null|
|      10|     34|      2|      4|      0|
|      11|      0|      0|      0|      0|
|      12|      0|      0| …

Run Code Online (Sandbox Code Playgroud)

python pyspark

Jua*_*vid

2017 06-30

5
推荐指数

2
解决办法

2656
查看次数