小编Chu*_*Hsu的帖子

将新列附加到现有的镶木地板文件

有没有办法将新列附加到现有的镶木地板文件?

我目前正在进行一场讨价还价的竞赛,我已将所有数据转换为镶木地板文件.

在这种情况下,我将镶木地板文件读入pyspark DataFrame,进行了一些特征提取并将新列添加到DataFrame中

pysaprk.DataFrame.withColumn().

之后,我想在源镶木地板文件中保存新列.

我知道Spark SQL带有Parquet模式演变,但该示例仅显示了具有键值的情况.

镶木地板"附加"模式也不起作用.它只将新行附加到镶木地板文件中.如果无论如何都要将新列附加到现有的镶木地板文件而不是再次生成整个表格?或者我必须生成一个单独的新镶木地板文件并在运行时加入它们.

apache-spark parquet apache-spark-sql

6
推荐指数
2
解决办法
5508
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

parquet ×1