相关疑难解决方法(0)

Spark窗口函数 - rangeBetween日期

我有一个DataFrame带有数据的Spark SQL ,我想要得到的是给定日期范围内当前行之前的所有行.因此,例如,我希望将7天之前的所有行放在给定行之前.我想我需要使用Window Function像:

Window \
    .partitionBy('id') \
    .orderBy('start')

Run Code Online (Sandbox Code Playgroud)

这就是问题所在.我想要有rangeBetween7天的时间,但是我在这个文件中找不到任何内容.Spark甚至提供这样的选择吗？现在我只是得到前面的所有行:

.rowsBetween(-sys.maxsize, 0)

Run Code Online (Sandbox Code Playgroud)

但想要实现以下目标:

.rangeBetween("7 days", 0)

Run Code Online (Sandbox Code Playgroud)

如果有人能帮助我,我将非常感激.提前致谢!

sql window-functions apache-spark apache-spark-sql pyspark

Nho*_*hor

2018 11-14

28
推荐指数

3
解决办法

2万
查看次数

如何使用Window()计算PySpark中的滚动中位数？

如何计算前3个窗口大小的美元滚动中位数？

输入数据

dollars timestampGMT       
25      2017-03-18 11:27:18
17      2017-03-18 11:27:19
13      2017-03-18 11:27:20
27      2017-03-18 11:27:21
13      2017-03-18 11:27:22
43      2017-03-18 11:27:23
12      2017-03-18 11:27:24

Run Code Online (Sandbox Code Playgroud)

预期的输出数据

dollars timestampGMT          rolling_median_dollar
25      2017-03-18 11:27:18   median(25)
17      2017-03-18 11:27:19   median(17,25)
13      2017-03-18 11:27:20   median(13,17,25)
27      2017-03-18 11:27:21   median(27,13,17)
13      2017-03-18 11:27:22   median(13,27,13)
43      2017-03-18 11:27:23   median(43,13,27)
12      2017-03-18 11:27:24   median(12,43,13)

Run Code Online (Sandbox Code Playgroud)

下面的代码确实移动avg但PySpark没有F.median().

pyspark:使用时间序列数据滚动平均值

编辑1:挑战是中位数()函数不退出.我不能做

df = df.withColumn('rolling_average', F.median("dollars").over(w))

Run Code Online (Sandbox Code Playgroud)

如果我想要移动平均线我就可以做到

df = df.withColumn('rolling_average', F.avg("dollars").over(w))

Run Code Online (Sandbox Code Playgroud)

编辑2:尝试使用approxQuantile()

windfun = Window().partitionBy().orderBy(F.col(date_column)).rowsBetwe??en(-3, 0) sdf.withColumn("movingMedian", sdf.approxQuantile(col='a', probabilities=[0.5], relativeError=0.00001).over(windfun))

Run Code Online (Sandbox Code Playgroud)

但是得到错误