相关疑难解决方法(0)

Pyspark Isin函数

我是Spark的初学者。我正在使用Pyspark将旧的Python代码转换为Spark。

我想得到一个与下面的代码等效的Pyspark

usersofinterest = actdataall[actdataall['ORDValue'].isin(orddata['ORDER_ID'].unique())]['User ID']

Run Code Online (Sandbox Code Playgroud)

两者，actdataall并orddata有星火dataframes。

toPandas()考虑到与之相关的缺点，我不想使用函数。

任何帮助表示赞赏。

apache-spark pyspark

add*_*787

2017 11-01

5
推荐指数

2
解决办法

6907
查看次数

PySpark：使用isin过滤返回空数据框

上下文： 我需要使用isin函数基于包含另一个数据框的列的内容过滤数据框。

对于使用熊猫的Python用户，应该为：isin（）。
对于R用户，应为：％in％。

所以我有一个带有id和value列的简单spark数据框：

l = [(1, 12), (1, 44), (1, 3), (2, 54), (3, 18), (3, 11), (4, 13), (5, 78)]
df = spark.createDataFrame(l, ['id', 'value'])
df.show()

+---+-----+
| id|value|
+---+-----+
|  1|   12|
|  1|   44|
|  1|    3|
|  2|   54|
|  3|   18|
|  3|   11|
|  4|   13|
|  5|   78|
+---+-----+

Run Code Online (Sandbox Code Playgroud)

我想获取所有出现多次的ID。这是df中唯一ID的数据框：

unique_ids = df.groupBy('id').count().where(col('count') < 2)
unique_ids.show()

+---+-----+
| id|count| …

Run Code Online (Sandbox Code Playgroud)

python apache-spark apache-spark-sql pyspark pyspark-sql

LeP*_*ppy

2019 03-08

4
推荐指数

1
解决办法

720
查看次数

标签统计

apache-spark ×2

pyspark ×2

apache-spark-sql ×1

pyspark-sql ×1

python ×1

Pyspark Isin函数

PySpark：使用isin过滤返回空数据框

标签 统计

标签统计