小编Har*_*jan的帖子

Spark Streaming中批处理间隔、滑动间隔和窗口大小的区别

我是新的火花流。我知道窗口大小需要是批处理间隔的倍数。但是滑动间隔是如何工作的呢?如果我有 3 个窗口大小和 2 个滑动间隔,当我计算单词计数时会不会有重叠?或者滑动间隔和批处理间隔应该相同?

apache-spark spark-streaming

9
推荐指数
1
解决办法
8169
查看次数

pyspark 数据框中所有列的总计数为零

我需要找到 pyspark 数据框中所有列的零百分比。如何查找数据框中每列的零计数?

PS:我尝试将数据帧转换为 pandas 数据帧并使用 value_counts。但对于大型数据集来说,推断其观察结果是不可能的。

python dataframe pyspark

6
推荐指数
1
解决办法
5853
查看次数