在Spark中将简单的一行字符串转换为RDD

poi*_*rez 23 python distributed-computing apache-spark rdd pyspark

我有一个简单的路线:

line = "Hello, world"
Run Code Online (Sandbox Code Playgroud)

我想将它转换为只有一个元素的RDD.我试过了

sc.parallelize(line)
Run Code Online (Sandbox Code Playgroud)

但它得到:

sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']
Run Code Online (Sandbox Code Playgroud)

有任何想法吗?

mic*_*ang 28

尝试使用List作为参数:

sc.parallelize(List(line)).collect()
Run Code Online (Sandbox Code Playgroud)

它返回

res1: Array[String] = Array(hello,world)
Run Code Online (Sandbox Code Playgroud)

  • 实际上,使用sc.parallelize([line]).collect()工作. (6认同)