相关疑难解决方法(0)

使用无值过滤Pyspark数据框列

我正在尝试过滤具有None行值的PySpark数据帧:

df.select('dt_mvmt').distinct().collect()

[Row(dt_mvmt=u'2016-03-27'),
 Row(dt_mvmt=u'2016-03-28'),
 Row(dt_mvmt=u'2016-03-29'),
 Row(dt_mvmt=None),
 Row(dt_mvmt=u'2016-03-30'),
 Row(dt_mvmt=u'2016-03-31')]

Run Code Online (Sandbox Code Playgroud)

我可以使用字符串值正确过滤:

df[df.dt_mvmt == '2016-03-31']
# some results here

Run Code Online (Sandbox Code Playgroud)

但这失败了:

df[df.dt_mvmt == None].count()
0
df[df.dt_mvmt != None].count()
0

Run Code Online (Sandbox Code Playgroud)

但每个类别肯定都有价值观.这是怎么回事？

python dataframe apache-spark apache-spark-sql pyspark

Iva*_*van

2019 01-05

76
推荐指数

5
解决办法

16万
查看次数

标签统计

apache-spark ×1

apache-spark-sql ×1

dataframe ×1

pyspark ×1

python ×1

使用无值过滤Pyspark数据框列

标签 统计

标签统计