PySpark countApprox() 超时不起作用

Jav*_*tón 7 apache-spark apache-spark-sql pyspark

我正在使用 Pyspark 和 Dataframes，我想大致了解 Dataframe 是否大于某物。

我正在尝试使用countApprox()功能：

 df.rdd.countApprox(1000, 0.5)

Run Code Online (Sandbox Code Playgroud)

但似乎在 Pyspark 中超时不起作用。我已经看到在 Scala/Java 中，函数返回一个对象，您可以在其中检查“低”和“高”值，但在 Pyspark 中只返回一个整数。当数据框“大”时，countApprox()即使我将超时设置为 1000 毫秒，也需要几分钟才能获得

有谁知道countApprox()工作是否不同，或者是否有任何其他函数可以知道数据帧的大小而不是行数的近似值？我只需要知道 Dataframe 是“非常小”还是“非常大”。

谢谢。

归档时间：	7 年，10 月前
查看次数：	337 次
最近记录：	5 年，11 月前

如何找到火花RDD /数据帧大小？ 28

更多相关链接

在Spark 2.0中使用SparkSession时的parallelize()方法 16

生成镶木地板文件的元数据 15

Kryo序列化程序如何在Spark中分配缓冲区 11

为什么Spark的OneHotEncoder默认删除最后一个类别？ 11

为什么在Spark中聚合和折叠两个不同的API？ 8

使用Spark的partitioningBy方法对S3中的大型偏斜数据集进行分区 6

如何解决“SecurityManager：身份验证已禁用；spark 分发集群中出现异常”？ 6

Scala错误找不到参数的隐式值 5

如何在 AWS EMR 上使用带有 pyspark 的图形框架？ 5

S3并行读写性能如何？ 3

什么是依赖注入？ 2984

如何使用CSS垂直居中文本？ 2190

如何显示已上演的更改？ 2034

如何避免JSP文件中的Java代码？ 1649

比较Java枚举成员:==或equals()？ 1645

如何停止跟踪并忽略Git中文件的更改？ 1634

在单个SQL查询中插入多行？ 1604

将文件从Docker容器复制到主机 1438

漂亮的git分支图 1290

是否有"以前的兄弟"CSS选择器？ 1253