相关疑难解决方法(0)

Pyspark数据帧运算符"不在"

我想把这个从R改写为Pyspark,有什么好看的建议吗？

array <- c(1,2,3)
dataset <- filter(!(column %in% array))

Run Code Online (Sandbox Code Playgroud)

pyspark

Bab*_*abu

lucky-day

20
推荐指数

3
解决办法

3万
查看次数

在pyspark中查找和删除匹配的列值

我有一个pyspark数据框,偶尔会有一列与另一列匹配的错误值.它看起来像这样:

| Date         | Latitude      |
| 2017-01-01   | 43.4553       |
| 2017-01-02   | 42.9399       |
| 2017-01-03   | 43.0091       |
| 2017-01-04   | 2017-01-04    |

Run Code Online (Sandbox Code Playgroud)

显然,最后一个纬度值是不正确的.我需要删除任何和所有这样的行.我想过使用,.isin()但我似乎无法让它工作.如果我试试

df['Date'].isin(['Latitude'])

Run Code Online (Sandbox Code Playgroud)

我明白了:

Column<(Date IN (Latitude))>

Run Code Online (Sandbox Code Playgroud)

有什么建议？

apache-spark pyspark spark-dataframe pyspark-sql

len*_*ble

2018 04-24

2
推荐指数

1
解决办法

1857
查看次数

检查 pyspark df 列的值是否存在于其他 pyspark df 列中

我有 2 个 pyspark 数据帧，我想检查一列的值是否存在于另一个数据帧的列中。

我只看到了如何过滤存在的值的解决方案（像这样），我需要做的是返回一列 true 或 false。

在 pandas 中，它会是这样的：

df_A["column1"].isin(df_B["column1"])

Run Code Online (Sandbox Code Playgroud)

提前致谢！

python dataframe apache-spark apache-spark-sql pyspark

And*_*nte

2021 01-01

2
推荐指数

1
解决办法

1万
查看次数

标签统计

pyspark ×3

apache-spark ×2

apache-spark-sql ×1

dataframe ×1

pyspark-sql ×1

python ×1

spark-dataframe ×1

Pyspark数据帧运算符"不在"

在pyspark中查找和删除匹配的列值

检查 pyspark df 列的值是否存在于其他 pyspark df 列中

标签 统计

标签统计