jav*_*dba 11 python apache-spark pyspark
pyspark RDD文档
http://spark.apache.org/docs/1.2.1/api/python/pyspark.html#pyspark.RDD
没有显示任何显示RDD分区信息的方法.
有没有办法在不执行额外步骤的情况下获取该信息,例如:
myrdd.mapPartitions(lambda x: iter[1]).sum()
Run Code Online (Sandbox Code Playgroud)
以上确实有效..但似乎是额外的努力.
jav*_*dba 36
我错过了:非常简单:
rdd.getNumPartitions()
Run Code Online (Sandbox Code Playgroud)
不习惯java-ish 得到 FooMethod()了;)
更新:添加来自@dnlbrky的评论:
dataFrame.rdd.getNumPartitions()
Run Code Online (Sandbox Code Playgroud)