小编sac*_*hin的帖子

PySpark,通过JSON文件导入模式

tbschema.json 看起来像这样:

[{"TICKET":"integer","TRANFERRED":"string","ACCOUNT":"STRING"}]
Run Code Online (Sandbox Code Playgroud)

我使用以下代码加载它

>>> df2 = sqlContext.jsonFile("tbschema.json")
>>> f2.schema
StructType(List(StructField(ACCOUNT,StringType,true),
    StructField(TICKET,StringType,true),StructField(TRANFERRED,StringType,true)))
>>> df2.printSchema()
root
 |-- ACCOUNT: string (nullable = true)
 |-- TICKET: string (nullable = true)
 |-- TRANFERRED: string (nullable = true)
Run Code Online (Sandbox Code Playgroud)
  1. 当我希望元素的顺序与它们在JSON中出现的顺序相同时,为什么模式元素会被排序.

  2. 在派生JSON之后,数据类型整数已转换为StringType,如何保留数据类型.

python json apache-spark apache-spark-sql pyspark

6
推荐指数
1
解决办法
1万
查看次数

标签 统计

apache-spark ×1

apache-spark-sql ×1

json ×1

pyspark ×1

python ×1