小编Bor*_*ris的帖子

如何向Spark DataFrame添加新列(使用PySpark)？

我有一个Spark DataFrame(使用PySpark 1.5.1)并想添加一个新列.

我试过以下但没有成功:

type(randomed_hours) # => list

# Create in Python and transform to RDD

new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

spark_new_col = sqlContext.createDataFrame(new_col)

my_df_spark.withColumn("hours", spark_new_col["new_col"])

Run Code Online (Sandbox Code Playgroud)

使用这个也有错误:

my_df_spark.withColumn("hours",  sc.parallelize(randomed_hours))

Run Code Online (Sandbox Code Playgroud)

那么如何使用PySpark将新列(基于Python向量)添加到现有的DataFrame中？

python dataframe apache-spark apache-spark-sql pyspark

Bor*_*ris

2019 01-05

110
推荐指数

4
解决办法

21万
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

dataframe ×1

pyspark ×1

python ×1

如何向Spark DataFrame添加新列(使用PySpark)？

标签 统计

小编Bor_ris的帖子

标签统计