小编Doo_oof的帖子

我有一个需要从 pyspark.sql.DataFrame 中过滤的 ID 列表。该 ID 有 3000000 个值。我使用的方法是

df_tmp.filter(fn.col("device_id").isin(device_id))

这需要很长时间并且陷入困境。有什么替代方案吗？

2
推荐指数

1
解决办法

1612
查看次数

小编Doo*_*oof的帖子