PySpark countApprox() 超时不起作用

Jav*_*tón 7 apache-spark apache-spark-sql pyspark

我正在使用 Pyspark 和 Dataframes,我想大致了解 Dataframe 是否大于某物。

我正在尝试使用countApprox()功能:

 df.rdd.countApprox(1000, 0.5)
Run Code Online (Sandbox Code Playgroud)

但似乎在 Pyspark 中超时不起作用。我已经看到在 Scala/Java 中,函数返回一个对象,您可以在其中检查“低”和“高”值,但在 Pyspark 中只返回一个整数。当数据框“大”时,countApprox()即使我将超时设置为 1000 毫秒,也需要几分钟才能获得

有谁知道countApprox()工作是否不同,或者是否有任何其他函数可以知道数据帧的大小而不是行数的近似值?我只需要知道 Dataframe 是“非常小”还是“非常大”。

谢谢。