我想将字符串添加到现有列。例如,df['col1']
具有等值'1', '2', '3'
,我想'000'
在其左侧合并字符串,col1
因此我可以将列(新列或替换旧列都无所谓)'0001', '0002', '0003'
。
我以为我应该使用,df.withColumn('col1', '000'+df['col1'])
但由于pyspark dataframe是不可变的,因此当然不起作用?
这应该是一个简单的任务,但是我没有在网上找到任何东西。希望有人能给我一些帮助!
谢谢!
我想做的是:
连接两个 DataFrameA
并B
使用它们各自的id
列a_id
和b_id
. 我想从中选择所有列A
和两个特定列B
我尝试了类似下面用不同引号括起来的内容,但仍然无法正常工作。我觉得在 pyspark 中,应该有一个简单的方法来做到这一点。
A_B = A.join(B, A.id == B.id).select(A.*, B.b1, B.b2)
Run Code Online (Sandbox Code Playgroud)
我知道你可以写
A_B = sqlContext.sql("SELECT A.*, B.b1, B.b2 FROM A JOIN B ON A.a_id = B.b_id")
Run Code Online (Sandbox Code Playgroud)
这样做,但我想更像上面的伪代码。