Ste*_*fer 5 apache-spark pyspark
我对Apache Spark和Python比较陌生,想知道如何获得RDD的大小。我有一个RDD看起来像这样:
[[‘ID: 6993.1066',
'Time: 15:53:43',
'Lab: West',
'Lab-Tech: Nancy McNabb, ',
'\tBob Jones, Harry Lim, ',
'\tSue Smith, Will Smith, ',
'\tTerry Smith, Nandini Chandra, ',
]]
Run Code Online (Sandbox Code Playgroud)
pyspark中是否有方法或函数可以确定RDD中有多少个元组?上面的一个有7。
Scala类似于:myRDD.length。
对于RDD单个元素的大小,这似乎是
>>> rdd = sc.parallelize([(1,2,'the'),(5,2,5),(1,1,'apple')])
>>> rdd.map(lambda x: len(x)).collect()
[3, 3, 3]
Run Code Online (Sandbox Code Playgroud)
对于RDD内的整体元素计数
>>> rdd.count()
3
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
5313 次 |
| 最近记录: |