使用pyspark,如何将文件中一行的多个JSON文档读入数据框?

Jar*_*red 6 dataframe apache-spark apache-spark-sql pyspark

使用Spark 2.3,我知道我可以读取这样的JSON文档文件:

{'key': 'val1'}
{'key': 'val2'}
Run Code Online (Sandbox Code Playgroud)

有了这个:

spark.json.read('filename')
Run Code Online (Sandbox Code Playgroud)

当JSON文档之间没有换行符时,如何将以下内容读入数据框?

以下是示例输入。

{'key': 'val1'}{'key': 'val2'}
Run Code Online (Sandbox Code Playgroud)

需要明确的是,我希望有两行(frame.count() == 2)的数据框。

Tom*_*Ron 1

请尝试 -

df = spark.read.json(["fileName1","fileName2"])
Run Code Online (Sandbox Code Playgroud)

如果你想读取文件夹中的所有 json 文件,你也可以这样做 -

df = spark.read.json("data/*json")
Run Code Online (Sandbox Code Playgroud)

  • 问题不在于我有多个文件 - 问题在于,在一个文件中,我有多个 JSON 文档,其间没有换行符。 (2认同)