使用 Pyspark,如何选择/保留包含非空值的 DataFrame 的所有列;或等效地删除所有不包含数据的列。
编辑:根据苏雷什请求,
for column in media.columns:
if media.select(media[column]).distinct().count() == 1:
media = media.drop(media[column])
Run Code Online (Sandbox Code Playgroud)
这里我假设如果count是1,那么它应该是Nan。但我想看看那是不是南。如果有任何其他内置的火花功能,请告诉我。