The*_*nce 13 python dataframe apache-spark spark-csv
如何确定数据框大小?
现在我估计数据帧的实际大小如下:
headers_size = key for key in df.first().asDict()
rows_size = df.map(lambda row: len(value for key, value in row.asDict()).sum()
total_size = headers_size + rows_size
Run Code Online (Sandbox Code Playgroud)
它太慢了,我正在寻找更好的方法.
Zig*_*ien 12
来自Tamas Szuromi的好帖子http://metricbrew.com/how-to-estimate-rdd-or-dataframe-real-size-in-pyspark/
from pyspark.serializers import PickleSerializer, AutoBatchedSerializer
def _to_java_object_rdd(rdd):
""" Return a JavaRDD of Object by unpickling
It will convert each Python object into Java object by Pyrolite, whenever the
RDD is serialized in batch or not.
"""
rdd = rdd._reserialize(AutoBatchedSerializer(PickleSerializer()))
return rdd.ctx._jvm.org.apache.spark.mllib.api.python.SerDe.pythonToJava(rdd._jrdd, True)
JavaObj = _to_java_object_rdd(df.rdd)
nbytes = sc._jvm.org.apache.spark.util.SizeEstimator.estimate(JavaObj)
Run Code Online (Sandbox Code Playgroud)
小智 6
目前,我正在使用以下方法,不确定这是否是最佳方法
df.persist(StorageLevel.Memory)
df.count()
在“存储”选项卡下的spark-web ui上,您可以检查以MB为单位显示的大小,然后我坚持不懈地清除内存。
df.unpersist()
归档时间: |
|
查看次数: |
17310 次 |
最近记录: |