poi*_*rez 23 python distributed-computing apache-spark rdd pyspark
我有一个简单的路线:
line = "Hello, world"
Run Code Online (Sandbox Code Playgroud)
我想将它转换为只有一个元素的RDD.我试过了
sc.parallelize(line)
Run Code Online (Sandbox Code Playgroud)
但它得到:
sc.parallelize(line).collect()
['H', 'e', 'l', 'l', 'o', ',', ' ', 'w', 'o', 'r', 'l', 'd']
Run Code Online (Sandbox Code Playgroud)
有任何想法吗?
mic*_*ang 28
尝试使用List作为参数:
sc.parallelize(List(line)).collect()
Run Code Online (Sandbox Code Playgroud)
它返回
res1: Array[String] = Array(hello,world)
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
37836 次 |
| 最近记录: |