相关疑难解决方法(0)

如何向Spark DataFrame添加新列(使用PySpark)？

我有一个Spark DataFrame(使用PySpark 1.5.1)并想添加一个新列.

我试过以下但没有成功:

type(randomed_hours) # => list

# Create in Python and transform to RDD

new_col = pd.DataFrame(randomed_hours, columns=['new_col'])

spark_new_col = sqlContext.createDataFrame(new_col)

my_df_spark.withColumn("hours", spark_new_col["new_col"])

Run Code Online (Sandbox Code Playgroud)

使用这个也有错误:

my_df_spark.withColumn("hours",  sc.parallelize(randomed_hours))

Run Code Online (Sandbox Code Playgroud)

那么如何使用PySpark将新列(基于Python向量)添加到现有的DataFrame中？

python dataframe apache-spark apache-spark-sql pyspark

Bor*_*ris

2019 01-05

110
推荐指数

4
解决办法

21万
查看次数

在从其他列派生的数据框中添加新列(Spark)

我正在使用Spark 1.3.0和Python.我有一个数据框,我希望添加一个从其他列派生的附加列.像这样,

>>old_df.columns
[col_1, col_2, ..., col_m]

>>new_df.columns
[col_1, col_2, ..., col_m, col_n]

Run Code Online (Sandbox Code Playgroud)

哪里

col_n = col_3 - col_4

Run Code Online (Sandbox Code Playgroud)

我如何在PySpark中执行此操作？

python apache-spark apache-spark-sql pyspark

men*_*h84

2015 07-10

22
推荐指数

3
解决办法

3万
查看次数

标签统计

apache-spark ×2

apache-spark-sql ×2

pyspark ×2

python ×2

dataframe ×1

如何向Spark DataFrame添加新列(使用PySpark)？

在从其他列派生的数据框中添加新列(Spark)

标签 统计

标签统计