相关疑难解决方法(0)

如何使用Window()计算PySpark中的滚动中位数？

如何计算前3个窗口大小的美元滚动中位数？

输入数据

dollars timestampGMT       
25      2017-03-18 11:27:18
17      2017-03-18 11:27:19
13      2017-03-18 11:27:20
27      2017-03-18 11:27:21
13      2017-03-18 11:27:22
43      2017-03-18 11:27:23
12      2017-03-18 11:27:24

Run Code Online (Sandbox Code Playgroud)

预期的输出数据

dollars timestampGMT          rolling_median_dollar
25      2017-03-18 11:27:18   median(25)
17      2017-03-18 11:27:19   median(17,25)
13      2017-03-18 11:27:20   median(13,17,25)
27      2017-03-18 11:27:21   median(27,13,17)
13      2017-03-18 11:27:22   median(13,27,13)
43      2017-03-18 11:27:23   median(43,13,27)
12      2017-03-18 11:27:24   median(12,43,13)

Run Code Online (Sandbox Code Playgroud)

下面的代码确实移动avg但PySpark没有F.median().

pyspark:使用时间序列数据滚动平均值

编辑1:挑战是中位数()函数不退出.我不能做

df = df.withColumn('rolling_average', F.median("dollars").over(w))

Run Code Online (Sandbox Code Playgroud)

如果我想要移动平均线我就可以做到

df = df.withColumn('rolling_average', F.avg("dollars").over(w))

Run Code Online (Sandbox Code Playgroud)

编辑2:尝试使用approxQuantile()

windfun = Window().partitionBy().orderBy(F.col(date_column)).rowsBetwe??en(-3, 0) sdf.withColumn("movingMedian", sdf.approxQuantile(col='a', probabilities=[0.5], relativeError=0.00001).over(windfun))

Run Code Online (Sandbox Code Playgroud)

但是得到错误

AttributeError: …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark pyspark-sql

Geo*_*eRF

2019 01-15

6
推荐指数

1
解决办法

2410
查看次数

使用列值作为spark DataFrame函数的参数

考虑以下DataFrame：

#+------+---+
#|letter|rpt|
#+------+---+
#|     X|  3|
#|     Y|  1|
#|     Z|  2|
#+------+---+

Run Code Online (Sandbox Code Playgroud)

可以使用以下代码创建：

df = spark.createDataFrame([("X", 3),("Y", 1),("Z", 2)], ["letter", "rpt"])

Run Code Online (Sandbox Code Playgroud)

假设我想在每一行中重复列中指定的次数rpt，就像这个问题一样。

一种方法是使用以下查询将我的解决方案复制到该问题pyspark-sql：

query = """
SELECT *
FROM
  (SELECT DISTINCT *,
                   posexplode(split(repeat(",", rpt), ",")) AS (index, col)
   FROM df) AS a
WHERE index > 0
"""
query = query.replace("\n", " ")  # replace newlines with spaces, avoid EOF error
spark.sql(query).drop("col").sort('letter', 'index').show()
#+------+---+-----+
#|letter|rpt|index|
#+------+---+-----+
#|     X|  3|    1|
#| …

Run Code Online (Sandbox Code Playgroud)

apache-spark apache-spark-sql pyspark pyspark-sql

pau*_*ult

2018 09-11

5
推荐指数

1
解决办法

2709
查看次数