我正在测试一些原型应用程序。我们有带有嵌套字段的 json 数据。我正在尝试使用以下 json 和代码提取一些字段:
Feed: {name: "test",[Record: {id: 1 AllColumns: {ColA: "1",ColB: "2"}}...]}
Dataset<Row> completeRecord = sparkSession.read().json(inputPath);
final Dataset<Row> feed = completeRecord.select(completeRecord.col("Feed.Record.AllColumns"));
Run Code Online (Sandbox Code Playgroud)
我有大约 2000 个带有此类记录的文件。我已经单独测试了一些文件,它们运行良好。但是对于某些文件,我在第二行遇到以下错误:
org.apache.spark.sql.AnalysisException:无法从 Feed#8.Record 中提取值:需要结构类型但得到字符串;
我不确定这里发生了什么。但我想优雅地处理这个错误并记录哪个文件具有该记录。另外,有没有办法忽略这一点并继续处理其余文件?