相关疑难解决方法(0)

Pyspark数据帧运算符"不在"

我想把这个从R改写为Pyspark,有什么好看的建议吗?

array <- c(1,2,3)
dataset <- filter(!(column %in% array))
Run Code Online (Sandbox Code Playgroud)

pyspark

20
推荐指数
3
解决办法
3万
查看次数

在pyspark中查找和删除匹配的列值

我有一个pyspark数据框,偶尔会有一列与另一列匹配的错误值.它看起来像这样:

| Date         | Latitude      |
| 2017-01-01   | 43.4553       |
| 2017-01-02   | 42.9399       |
| 2017-01-03   | 43.0091       |
| 2017-01-04   | 2017-01-04    |
Run Code Online (Sandbox Code Playgroud)

显然,最后一个纬度值是不正确的.我需要删除任何和所有这样的行.我想过使用,.isin()但我似乎无法让它工作.如果我试试

df['Date'].isin(['Latitude'])
Run Code Online (Sandbox Code Playgroud)

我明白了:

Column<(Date IN (Latitude))>
Run Code Online (Sandbox Code Playgroud)

有什么建议?

apache-spark pyspark spark-dataframe pyspark-sql

2
推荐指数
1
解决办法
1857
查看次数

检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧,我想检查一列的值是否存在于另一个数据帧的列中。

我只看到了如何过滤存在的值的解决方案(像这样),我需要做的是返回一列 true 或 false。

在 pandas 中,它会是这样的:

df_A["column1"].isin(df_B["column1"])
Run Code Online (Sandbox Code Playgroud)

提前致谢!

python dataframe apache-spark apache-spark-sql pyspark

2
推荐指数
1
解决办法
1万
查看次数