如何使用pyspark获取镶木地板文件的列名及其数据类型?

Shu*_*hra 4 apache-spark pyspark

我在我的hadoop集群上有一个镶木地板文件,我想捕获列名称及其数据类型,并将其写在textfile.how上,以使用pyspark获取镶木地板文件的列名和数据类型.

zer*_*323 9

您只需阅读该文件并使用schema访问个人fields:

sqlContext.read.parquet(path_to_parquet_file).schema.fields
Run Code Online (Sandbox Code Playgroud)