Joh*_*Lin 28 python dataframe apache-spark pyspark
我正在使用Spark 1.3.1.
我试图在Python中查看Spark数据帧列的值.使用Spark数据帧,我可以df.collect()查看数据帧的内容,但是我没有看到Spark数据帧列的最佳方法.
例如,数据框df包含一个名为的列'zip_code'.所以我可以做df['zip_code'],它变成了一个pyspark.sql.dataframe.Column类型,但我找不到一种方法来查看值df['zip_code'].
zer*_*323 35
您可以访问底层RDD并映射它
df.rdd.map(lambda r: r.zip_code).collect()
Run Code Online (Sandbox Code Playgroud)
select如果您不介意使用Row对象包装的结果,也可以使用:
df.select('zip_code').collect()
Run Code Online (Sandbox Code Playgroud)
最后,如果您只是想检查内容,那么show方法就足够了:
df.select('zip_code').show()
Run Code Online (Sandbox Code Playgroud)
你可以简单地写:
df.select('your column's name').show()
Run Code Online (Sandbox Code Playgroud)
在你的例子中,它将是:
df.select('zip_code').show()
Run Code Online (Sandbox Code Playgroud)
查看完整内容:
df.select("raw").take(1).foreach(println)
Run Code Online (Sandbox Code Playgroud)
(show将向您展示概述)。
| 归档时间: |
|
| 查看次数: |
49252 次 |
| 最近记录: |