pyspark.mllib中LabeledPoint的类型转换错误，用于在pyspark.ml中使用线性回归模型

Question

pyspark.mllib中LabeledPoint的类型转换错误，用于在pyspark.ml中使用线性回归模型

我有以下使用pyspark.ml软件包进行线性回归的代码。但是，当模型适合时，我在最后一行收到此错误消息：

IllegalArgumentException：您的要求失败：列要素的类型必须为org.apache.spark.ml.linalg.VectorUDT@3bfc3ba7，但实际上是org.apache.spark.mllib.linalg.VectorUDT@f71b0bce。

有谁知道缺失了什么？是否有任何替换pyspark.ml为LabeledPoint在pyspark.mllib？

from pyspark import SparkContext
from pyspark.ml.regression import LinearRegression
from pyspark.mllib.regression import LabeledPoint
import numpy as np
from pandas import *


data = sc.textFile("/FileStore/tables/w7baik1x1487076820914/randomTableSmall.csv")

def parsePoint(line):
    values = [float(x) for x in line.split(',')]
    return LabeledPoint(values[1], [values[0]])


points_df = data.map(parsePoint).toDF()

lr = LinearRegression()

model = lr.fit(points_df, {lr.regParam:0.0})

Run Code Online (Sandbox Code Playgroud)

Answer 1

Gau*_*ama 7

问题是较新版本的 spark 在 ml 的 linalg 模块中有一个 Vector 类，您不需要从 mllib.linalg 获取它。此外，较新的版本不接受以毫升为单位的 spark.mllib.linalg.VectorUDT。这是适合您的代码：

from pyspark import SparkContext
from pyspark.ml.regression import LinearRegression
from pyspark.ml.linalg import Vectors
import numpy as np


data = sc.textFile("/FileStore/tables/w7baik1x1487076820914/randomTableSmall.csv")

def parsePoint(line):
    values = [float(x) for x in line.split(',')]
    return (values[1], Vectors.dense([values[0]]))


points_df = data.map(parsePoint).toDF(['label','features'])

lr = LinearRegression()

model = lr.fit(points_df)

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年前
查看次数：	662 次
最近记录：	8 年，3 月前