从 Spark 读取多个 json 文件

Rom*_*gan 7 apache-spark

我有一个我想要并行加载的 json 文件列表。

我不能使用read.json("*")原因文件不在同一个文件夹中,并且没有我可以实现的特定模式。

我已经尝试过,sc.parallelize(fileList).select(hiveContext.read.json)但正如预期的那样,执行程序中不存在配置单元上下文。

有任何想法吗?

Rom*_*gan 5

看起来我找到了解决方案:

val text sc.textFile("file1,file2....")
val df = sqlContext.read.json(text)
Run Code Online (Sandbox Code Playgroud)

  • 它也接受多个文件 - sqlContext.read.json(file1, file2) (3认同)