我刚开始使用databricks/pyspark.我使用python/spark 2.1.我已将数据上传到表格.该表是一个完整的字符串列.我希望将映射函数应用于列中的每个元素.我将表加载到数据帧中:
df = spark.table("mynewtable")
Run Code Online (Sandbox Code Playgroud)
我能看到的唯一方法是其他人说是将其转换为RDD以应用映射函数,然后返回到数据框以显示数据.但这会导致工作中止阶段失败:
df2 = df.select("_c0").rdd.flatMap(lambda x: x.append("anything")).toDF()
Run Code Online (Sandbox Code Playgroud)
我想要做的就是将任何类型的map函数应用于表格中的数据.例如,在列中为每个字符串添加一些内容,或者对char执行拆分,然后将其放回到数据框中,以便我可以.show()或显示它.