从 Pandas 数据帧转换为 LabeledPoint RDD

Question

从 Pandas 数据帧转换为 LabeledPoint RDD

Lar*_*ite 2 python pandas apache-spark pyspark apache-spark-mllib

我正在一个非常简单的数据集上运行一些测试，该数据集基本上由数值数据组成。可以在这里找到。

我正在使用 pandas、numpy 和 scikit-learn 很好，但是当转移到 Spark 时，我无法以正确的格式设置数据以将其输入到决策树中。

我正在做这行不通的事情：

df = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-training-true.data')

raw_data = sc.parallelize(df)

train_dataset = raw_data.map(lambda line: line.split(","))\
                            .map(lambda line:LabeledPoint(line[10], np.array([float(x) for x in line[0:10]])))

Run Code Online (Sandbox Code Playgroud)

IndexError: list index out of range尝试line在 map 函数内部进行访问时，我一直在获取。

当我实际下载文件并更改代码时，我才设法让它工作，如下所示：

raw_data = sc.textFile('.../datasets/poker-hand-training.data')

train_dataset = raw_data.map(lambda line: line.split(","))\
                            .map(lambda line:LabeledPoint(line[10], np.array([float(x) for x in line[0:10]])))

Run Code Online (Sandbox Code Playgroud)

如果我不想下载数据集，是否可以使用read_csv?

Answer 1

Spa*_*att 5

我建议你先转换Pandas DataFrame成Spark DataFrame. 您可以使用sqlContext.createDataFrame方法来做到这一点。

df = pd.read_csv('http://archive.ics.uci.edu/ml/machine-learning-databases/poker/poker-hand-training-true.data', names=['S1','C1','S2','C2','S3','C3','S4','C4','S5','C5','class'])
s_df = spark.createDataFrame(df)

Run Code Online (Sandbox Code Playgroud)

现在您可以使用此 Dataframe 来获取您的训练数据集。

train_dataset  = s_df.rdd.map(lambda x: LabeledPoint(x[10], x[:10])).collect()

Run Code Online (Sandbox Code Playgroud)

归档时间：	8 年，8 月前
查看次数：	1940 次
最近记录：	8 年，8 月前