AttributeError: 'RDD' 对象没有属性 'show'

luc*_*sat 0 python apache-spark pyspark

from pyspark import SparkContext, SparkConf, sql
from pyspark.sql import Row
sc = SparkContext.getOrCreate()
sqlContext = sql.SQLContext(sc)
df = sc.parallelize([ \
                 Row(nama='Roni', umur=27, tingi=168), \
                 Row(nama='Roni', umur=6, tingi=168),
                 Row(nama='Roni', umur=89, tingi=168),])

df.show()
Run Code Online (Sandbox Code Playgroud)

错误:回溯(最近一次调用最后一次):

文件“ipython-input-24-bfb18ebba99e”,第 8 行,在 df.show()

AttributeError: 'RDD' 对象没有属性 'show'

OmG*_*OmG 5

错误很明显,因为df是 rdd。您应该toDF在以下代码中使用likes将其更改为数据帧:

df = df.toDF()
df.show()
Run Code Online (Sandbox Code Playgroud)