Tur*_*hin 5 python apache-spark pyspark pyspark-sql
我实际上要解决的问题是获取PySpark数据帧的前N行或后N行,并将结果作为数据帧.具体来说,我希望能够做到这样的事情:
my_df.head(20).toPandas()
Run Code Online (Sandbox Code Playgroud)
但是,因为head()
返回行列表,我收到此错误:
AttributeError: 'list' object has no attribute 'toPandas'
Run Code Online (Sandbox Code Playgroud)
所以,我正在寻找将前N行PySpark数据帧作为数据帧返回的方法,或者将这些行列表转换为数据帧的方法.有任何想法吗?
小智 9
用limit
:
>>> df = sc.parallelize((("a", 1), ("b", 2))).toDF()
>>> df.limit(1).toPandas()
_1 _2
0 a 1
Run Code Online (Sandbox Code Playgroud)
用pd.DataFrame
:
>>> pd.DataFrame(df.head(1), columns=df.columns)
_1 _2
0 a 1
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
9692 次 |
最近记录: |