使用apache spark迭代字符串

lkn*_*993 1 scala apache-spark

例如,我们有字符串"abcdabcd"

我们想要计算字符串中可用的所有对(例如:"ab"或"da").

那么我们如何在apache spark中做到这一点呢?

我问这个原因看起来RDD不支持滑动功能:

rdd.sliding(2).toList
//Count number of pairs in list
//Returns syntax error on first line (sliding)
Run Code Online (Sandbox Code Playgroud)

Odo*_*ois 5

显然,它支持sliding通过mllib如图zero323 这里

import org.apache.spark.mllib.rdd.RDDFunctions._

val str = "abcdabcd"

val rdd = sc.parallelize(str)

rdd.sliding(2).map(_.mkString).toLocalIterator.forEach(println)
Run Code Online (Sandbox Code Playgroud)

将会呈现

ab
bc
cd
da
ab
bc
cd