如何在RDD对中找到最大值?

Vij*_*uri 15 scala apache-spark pyspark

我有一个火花对RDD(键,计数)如下

Array[(String, Int)] = Array((a,1), (b,2), (c,1), (d,3))
Run Code Online (Sandbox Code Playgroud)

如何使用spark scala API查找具有最高计数的密钥?

编辑:对RDD的数据类型是org.apache.spark.rdd.RDD [(String,Int)]

Ser*_*tin 22

使用Array.maxBy方法:

val a = Array(("a",1), ("b",2), ("c",1), ("d",3))
val maxKey = a.maxBy(_._2)
// maxKey: (String, Int) = (d,3)
Run Code Online (Sandbox Code Playgroud)

或者RDD.max:

val maxKey2 = rdd.max()(new Ordering[Tuple2[String, Int]]() {
  override def compare(x: (String, Int), y: (String, Int)): Int = 
      Ordering[Int].compare(x._2, y._2)
})
Run Code Online (Sandbox Code Playgroud)


Jac*_*ski 13

用途takeOrdered(1)(Ordering[Int].reverse.on(_._2)):

val a = Array(("a",1), ("b",2), ("c",1), ("d",3))
val rdd = sc.parallelize(a)
val maxKey = rdd.takeOrdered(1)(Ordering[Int].reverse.on(_._2))
// maxKey: Array[(String, Int)] = Array((d,3))
Run Code Online (Sandbox Code Playgroud)


May*_*ank 6

对于Pyspark:

a是对RDD与键作为字符串和值整数,然后

a.max(lambda x:x[1])
Run Code Online (Sandbox Code Playgroud)

返回具有最大值的键值对.基本上,max函数按lambda函数的返回值排序.

这里a是一对与RDD元素如('key',int)x[1]只是指元件的整数部分.

请注意,max函数本身将按键排序并返回最大值.

有关文档,请访问https://spark.apache.org/docs/1.5.0/api/python/pyspark.html#pyspark.RDD.max


Rub*_*uck 5

当 Spark RDD 保留为 RDD 而不是变成数组时,它们在时间上更有效

strinIntTuppleRDD.reduce((x, y) => if(x._2 > y._2) x else y)
Run Code Online (Sandbox Code Playgroud)