小编The*_*nce的帖子

如何估算pyspark中的数据帧实际大小?

如何确定数据框大小?

现在我估计数据帧的实际大小如下:

headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
Run Code Online (Sandbox Code Playgroud)

它太慢了,我正在寻找更好的方法.

python dataframe apache-spark spark-csv

13
推荐指数
2
解决办法
2万
查看次数

标签 统计

apache-spark ×1

dataframe ×1

python ×1

spark-csv ×1