如何使用pyspark获取镶木地板文件的列名及其数据类型？

Shu*_*hra 4 apache-spark pyspark

我在我的hadoop集群上有一个镶木地板文件,我想捕获列名称及其数据类型,并将其写在textfile.how上,以使用pyspark获取镶木地板文件的列名和数据类型.

您只需阅读该文件并使用schema访问个人fields:

sqlContext.read.parquet(path_to_parquet_file).schema.fields

Run Code Online (Sandbox Code Playgroud)

归档时间：	9 年，11 月前
查看次数：	10625 次
最近记录：	9 年，5 月前

如何选择每组的第一行？ 122

Apache Spark处理偏差数据 9

在 PySpark 中提取多个正则表达式匹配项 8

坚持记忆不在Spark中工作 7

使用Spark结构化流从Kafka读取数据，总是会发生超时问题 5

Pyspark：pyarrow.lib.ArrowTypeError：需要一个整数（获取类型时间戳） 5

使用 Spark-shell 安装 Graphframes 包 5

Spark数据帧更新列,其他列就像PySpark一样 2

如何将pip / pypi安装的python软件包转换为zip文件以在AWS Glue中使用 2

.rowsBetween(Window.unboundedPreceding, Window.unboundedFollowing) 错误 Spark Scala 1

我怎么知道通过jQuery选择了哪个单选按钮？ 2583

Git获取远程分支 2088

显示两个修订版之间已更改的文件 2041

查看未发布的Git提交 1649

Make .gitignore会忽略除少数文件之外的所有内容 1531

如何删除导出的环境变量？ 1439

在Node.js中读取环境变量 1240

如何在Java中将数字舍入到n个小数位 1209

有效地使用Git和Dropbox？ 1117

endsWith在JavaScript中 1085