小编ASU*_*_TY的帖子

我想将字符串添加到现有列。例如，df['col1']具有等值'1', '2', '3'，我想'000'在其左侧合并字符串，col1因此我可以将列（新列或替换旧列都无所谓）'0001', '0002', '0003'。

我以为我应该使用，df.withColumn('col1', '000'+df['col1'])但由于pyspark dataframe是不可变的，因此当然不起作用？

这应该是一个简单的任务，但是我没有在网上找到任何东西。希望有人能给我一些帮助！

谢谢！

4
推荐指数

2
解决办法

7828
查看次数

我想做的是：

连接两个 DataFrameA并B使用它们各自的id列a_id和b_id. 我想从中选择所有列A和两个特定列B

我尝试了类似下面用不同引号括起来的内容，但仍然无法正常工作。我觉得在 pyspark 中，应该有一个简单的方法来做到这一点。

A_B = A.join(B, A.id == B.id).select(A.*, B.b1, B.b2)

我知道你可以写

A_B = sqlContext.sql("SELECT A.*, B.b1, B.b2 FROM A JOIN B ON A.a_id = B.b_id")

这样做，但我想更像上面的伪代码。

4
推荐指数

1
解决办法

2万
查看次数

小编ASU__TY的帖子