我找到了解决办法。我提取了 pandas 数据框中字段的数据类型,并将其保存到字段名称中。
将数据类型映射到 avro 兼容的数据类型(pandas 中的“object”-> avro 中的“string”)
创建 avro 模式的模板,并将替换的字段名称和数据类型放入“fields:[]”部分并将其发布到注册表。
例如 :
schema = {"type": "record",
"name": schemaName,
"fields": [
{"name": key, "type": value} for (key, value) in myDict.items()
]
}
Run Code Online (Sandbox Code Playgroud)
然后可以使用 Fastavro 库来解析此模式
归档时间: |
|
查看次数: |
2232 次 |
最近记录: |