(Py)Spark 框架中数据帧的数据可视化

Question

关于 Spark DataFrames 方法可视化的问题。

就目前而言（我使用 v.2.0.0），Spark DataFrames 还没有任何可视化功能。通常的解决方案是将DataFrame 的一些样本收集到驱动程序中，将其加载到 Pandas DataFrame 等中，并使用其可视化功能。

我的问题是：我如何知道最大限度地利用驱动程序内存以可视化数据的最佳采样大小？或者，解决此问题的最佳实践是什么？

谢谢！

Answer 1

我认为这不会回答你的问题，但希望它能为其他人，或者也许你，提供一些观点。

我通常在 Spark 上聚合，然后使用 Pandas 进行可视化（但不将其存储到变量中）。在示例（简化）中，我会计算每天的活跃用户数，然后仅通过 Pandas 收集和可视化此计数（如果可能，我会尽量避免将数据保存到变量）：

(
spark.table("table_name")
.filter(F.col("status") == "Active")
.groupBy("dt")
.count()
.toPandas()
.plot(x="dt", y="count")
)