如何在 spark 2.X 中验证 Json 模式？

Dig*_*ure 5 json scala apache-spark spark-streaming pyspark

使用Spark流（用Scala编写）从 Kafka 读取消息。消息都是 Json 格式的字符串。

在局部变量中定义预期的模式，expectedSchema 然后将 RDD 中的字符串解析为 Json

spark.sqlContext.read.schema(schema).json(rdd.toDS())

Run Code Online (Sandbox Code Playgroud)

问题： Spark 将处理所有记录/行，只要它有一些我尝试读取的字段，即使输入行（字符串）的实际 Json 格式（即架构）与我的expectedSchema.

假设预期的模式看起来像这样（在 Json 中）：{"a": 1,"b": 2, "c": 3} 并且输入行看起来像这样： {"a": 1, "c": 3} Spark 将处理输入而不会失败。

我尝试使用此处描述的解决方案：How do I apply schema with nullable = false to json reading

但assert(readJson.schema == expectedSchema)永远不会失败，即使我故意发送带有错误 Json 模式的输入行也是如此。

有没有办法让我验证给定输入行的实际模式与我预期的模式相匹配？
有没有办法让我插入一个空值来“填充”“损坏”模式行中缺少的字段？

归档时间：	7 年，9 月前
查看次数：	3685 次
最近记录：	7 年，9 月前

如何将带有nullable = false的模式应用于json读取 6

更多相关链接

如何在Scala中模式匹配数组？ 66

Java JSON序列化 - 最佳实践 26

使用Python通过POST传递JSON对象 16

Scala:`-` [dash,minus]命令不推荐使用`onFailure`,将在0.14.0中删除 9

如何在Json.Net中跳过IEnumerable类型的默认JavaScript数组序列化？ 8

代码流误会？ 7

无法从SparkR创建的DataFrame中检索数据 6

在Zeppelin和Spark中解析CSV中的日期时间信息 5

spark-scala:如果另一个RDD中不存在RDD的记录,则过滤RDD 5

如何按索引组合两个 RDD[String]s？ 1

使用'for'循环迭代字典 2901

event.preventDefault()与return false 2891

如何在Bash中将变量设置为命令的输出？ 1513

接口与抽象类(通用OO) 1372

Git push需要用户名和密码 1327

"this"关键字如何运作？ 1243

如何使用OpenSSL创建自签名证书 1169

如何使用$ scope.$ watch和$ scope.$在AngularJS中申请？ 1076

angular.service vs angular.factory 1061

错误消息"未找到与约束合同名称匹配的导出" 1057