Bob*_*Bob 1 apache-spark-sql pyspark
如何复制此代码以获取 pyspark 中的数据帧大小?
scala> val df = spark.range(10)
scala> print(spark.sessionState.executePlan(df.queryExecution.logical).optimizedPlan.stats)
Statistics(sizeInBytes=80.0 B, hints=none)
Run Code Online (Sandbox Code Playgroud)
我想要做的是将 sizeInBytes 值放入一个变量中。
在 Spark 2.4 中你可以做
df = spark.range(10)
df.createOrReplaceTempView('myView')
spark.sql('explain cost select * from myView').show(truncate=False)
|== Optimized Logical Plan ==
Range (0, 10, step=1, splits=Some(8)), Statistics(sizeInBytes=80.0 B, hints=none)
Run Code Online (Sandbox Code Playgroud)
在 Spark 3.0.0-preview2 中,您可以使用explaincost mode:
df = spark.range(10)
df.explain(mode='cost')
== Optimized Logical Plan ==
Range (0, 10, step=1, splits=Some(8)), Statistics(sizeInBytes=80.0 B)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
1738 次 |
| 最近记录: |