Tho*_*mas 5 python apache-spark apache-spark-sql pyspark
此链接和其他链接groupByKey告诉我,如果有大量密钥,则不应使用Spark ,因为 Spark 会打乱所有密钥。这同样适用于groupBy函数吗?或者这是不同的东西?
我问这个问题是因为我想做这个问题试图做的事情,但我有大量的钥匙。应该可以在不通过本地减少每个节点来打乱所有数据的情况下完成此操作,但我找不到 PySpark 的方法来执行此操作(坦率地说,我发现文档非常缺乏)。
本质上,我想做的是:
# Non-working pseudocode
df.groupBy("A").reduce(lambda x,y: if (x.TotalValue > y.TotalValue) x else y)
Run Code Online (Sandbox Code Playgroud)
然而,dataframe API 不提供“reduce”选项。我可能误解了 dataframe 到底想要实现什么。
| 归档时间: |
|
| 查看次数: |
2259 次 |
| 最近记录: |