小编Ayu*_*ari的帖子

如何在单个查询中计算不同类型列的流数据帧的统计信息?

我有一个流数据帧有三列时间col1,col2.

+-----------------------+-------------------+--------------------+
|time                   |col1               |col2                |
+-----------------------+-------------------+--------------------+
|2018-01-10 15:27:21.289|0.4988615628926717 |0.1926744113882285  |
|2018-01-10 15:27:22.289|0.5430687338123434 |0.17084552928040175 |
|2018-01-10 15:27:23.289|0.20527770821641478|0.2221980020202523  |
|2018-01-10 15:27:24.289|0.130852802747647  |0.5213147910202641  |
+-----------------------+-------------------+--------------------+
Run Code Online (Sandbox Code Playgroud)

col1和col2的数据类型是可变的.它可以是字符串或数字数据类型.所以我必须计算每列的统计数据.对于字符串列,仅计算有效计数和无效计数.对于timestamp列,仅计算最小值和最大值.对于数字类型列,计算最小值,最大值,平均值和平均值.我必须在一个查询中计算所有统计信息.现在,我已经为每种类型的列分别计算了三个查询.

scala apache-spark apache-spark-sql spark-structured-streaming

6
推荐指数
1
解决办法
409
查看次数