小编mle*_*wis的帖子

Pyspark sql:根据值是否存在于不同的 DataFrame 的列中创建一个新列

我试图遵循这个答案,但我的问题略有不同。

我有两个 pyspark 数据框df2bears2. 两者都有一个整数变量,我想创建一个像这个伪代码的布尔值:

df3 = df2.withColumn("game", (df2.week_id.isin(bears2.week_if), 1,0))
Run Code Online (Sandbox Code Playgroud)

基本上,如果 的值df2存在于 的对应列中bears2,我想要一个1else a0

我尝试了expr()另一个问题,但无法使其正常工作。它看起来像这样:

new_column_1 = F.expr(
    """IF(df2.week_id IN(bears2.week_if), 1, 0))"""
    )
Run Code Online (Sandbox Code Playgroud)

python apache-spark pyspark pyspark-sql

4
推荐指数
1
解决办法
8373
查看次数

标签 统计

apache-spark ×1

pyspark ×1

pyspark-sql ×1

python ×1