我想把这个从R改写为Pyspark,有什么好看的建议吗?
array <- c(1,2,3)
dataset <- filter(!(column %in% array))
Run Code Online (Sandbox Code Playgroud) 我有一个pyspark数据框,偶尔会有一列与另一列匹配的错误值.它看起来像这样:
| Date | Latitude |
| 2017-01-01 | 43.4553 |
| 2017-01-02 | 42.9399 |
| 2017-01-03 | 43.0091 |
| 2017-01-04 | 2017-01-04 |
Run Code Online (Sandbox Code Playgroud)
显然,最后一个纬度值是不正确的.我需要删除任何和所有这样的行.我想过使用,.isin()但我似乎无法让它工作.如果我试试
df['Date'].isin(['Latitude'])
Run Code Online (Sandbox Code Playgroud)
我明白了:
Column<(Date IN (Latitude))>
Run Code Online (Sandbox Code Playgroud)
有什么建议?
我有 2 个 pyspark 数据帧,我想检查一列的值是否存在于另一个数据帧的列中。
我只看到了如何过滤存在的值的解决方案(像这样),我需要做的是返回一列 true 或 false。
在 pandas 中,它会是这样的:
df_A["column1"].isin(df_B["column1"])
Run Code Online (Sandbox Code Playgroud)
提前致谢!