小编yah*_*lom的帖子

在DataFrame上应用映射函数

我刚开始使用databricks/pyspark.我使用python/spark 2.1.我已将数据上传到表格.该表是一个完整的字符串列.我希望将映射函数应用于列中的每个元素.我将表加载到数据帧中:

df = spark.table("mynewtable")
Run Code Online (Sandbox Code Playgroud)

我能看到的唯一方法是其他人说是将其转换为RDD以应用映射函数,然后返回到数据框以显示数据.但这会导致工作中止阶段失败:

df2 = df.select("_c0").rdd.flatMap(lambda x: x.append("anything")).toDF()
Run Code Online (Sandbox Code Playgroud)

我想要做的就是将任何类型的map函数应用于表格中的数据.例如,在列中为每个字符串添加一些内容,或者对char执行拆分,然后将其放回到数据框中,以便我可以.show()或显示它.

python apache-spark pyspark databricks

13
推荐指数
1
解决办法
4万
查看次数

标签 统计

apache-spark ×1

databricks ×1

pyspark ×1

python ×1