lfv*_*fvv 4 python json apache-spark pyspark
我不想在从一组 jsons 创建数据帧时推断模式,但是我无法inferSchema = 'false'
像从 csv 读取时那样通过。这是我读取数据的方式:
df = spark.read.json(r's3://mypath/')
Run Code Online (Sandbox Code Playgroud)
找了一会儿,我在文档中发现我可以使用参数'primitivesAsString'
df = spark.read.json(r's3://mypath/', primitivesAsString='true')
Run Code Online (Sandbox Code Playgroud)
这样我至少可以禁止对原始类型进行推理。但是,对于数组和结构,我不会避免使用它。不过,它对我有用。