StructType不能接受对象?

Bal*_*ala 2 pyspark

我该如何解决这个问题?

rdd.collect()  //['3e866d48b59e8ac8aece79597df9fb4c'...]

rdd.toDF()    //Can not infer schema for type: <type 'str'>

myschema=StructType([StructField("col1", StringType(),True)])
rdd.toDF(myschema).show()
Run Code Online (Sandbox Code Playgroud)

// StructType不能接受对象"3e866d48b59e8ac8aece79597df9fb4c"的类型

Psi*_*dom 9

看来你有:

rdd = sc.parallelize(['3e866d48b59e8ac8aece79597df9fb4c'])
Run Code Online (Sandbox Code Playgroud)

这是一维数据结构,数据帧是2d; map每个数字到一个元组解决了这个问题:

rdd.map(lambda x: (x,)).toDF().show()
+--------------------+
|                  _1|
+--------------------+
|3e866d48b59e8ac8a...|
+--------------------+
Run Code Online (Sandbox Code Playgroud)