Mic*_*mlk 4 java avro apache-spark apache-spark-sql
这实际上与我之前的问题相同,但使用Avro而不是JSON作为数据格式.
我正在使用Spark数据帧,它可以从几个不同的模式版本之一加载数据:
// Version One
{"namespace": "com.example.avro",
"type": "record",
"name": "MeObject",
"fields": [
{"name": "A", "type": ["null", "int"], "default": null}
]
}
// Version Two
{"namespace": "com.example.avro",
"type": "record",
"name": "MeObject",
"fields": [
{"name": "A", "type": ["null", "int"], "default": null},
{"name": "B", "type": ["null", "int"], "default": null}
]
}
Run Code Online (Sandbox Code Playgroud)
我正在使用Spark Avro加载数据.
DataFrame df = context.read()
.format("com.databricks.spark.avro")
.load("path/to/avro/file");
Run Code Online (Sandbox Code Playgroud)
可以是Version One文件或Version Two文件.但是我希望能够以相同的方式处理它,将未知值设置为"null".我之前的问题中的建议是设置模式,但是我不想重复自己在.avro文件和火花StructType和朋友中编写模式.如何将avro架构(文本文件或生成的MeObject.getClassSchema())转换为火花StructType?
Spark Avro有一个SchemaConverters,但它都是私有的,并返回一些奇怪的内部对象.
免责声明:这是一种肮脏的黑客行为.这取决于一些事情:
以下代码读取Avro架构文件,使用给定架构创建空Avro文件,使用它读取spark-csv并输出Spark架构作为JSON文件.
import argparse
import tempfile
import avro.schema
from avro.datafile import DataFileWriter
from avro.io import DatumWriter
from pyspark import SparkContext
from pyspark.sql import SQLContext
def parse_schema(schema):
with open(schema) as fr:
return avro.schema.parse(open(schema).read())
def write_dummy(schema):
tmp = tempfile.mktemp(suffix='.avro')
with open(tmp, "w") as fw:
writer = DataFileWriter(fw, DatumWriter(), schema)
writer.close()
return tmp
def write_spark_schema(path, schema):
with open(path, 'w') as fw:
fw.write(schema.json())
def main():
parser = argparse.ArgumentParser(description='Avro schema converter')
parser.add_argument('--schema')
parser.add_argument('--output')
args = parser.parse_args()
sc = SparkContext('local[1]', 'Avro schema converter')
sqlContext = SQLContext(sc)
df = (sqlContext.read.format('com.databricks.spark.avro')
.load(write_dummy(parse_schema(args.schema))))
write_spark_schema(args.output, df.schema)
sc.stop()
if __name__ == '__main__':
main()
Run Code Online (Sandbox Code Playgroud)
用法:
bin/spark-submit --packages com.databricks:spark-avro_2.10:2.0.1 \
avro_to_spark_schema.py \
--schema path_to_avro_schema.avsc \
--output path_to_spark_schema.json
Run Code Online (Sandbox Code Playgroud)
读取架构:
import scala.io.Source
import org.apache.spark.sql.types.{DataType, StructType}
val json: String = Source.fromFile("schema.json").getLines.toList.head
val schema: StructType = DataType.fromJson(json).asInstanceOf[StructType]
Run Code Online (Sandbox Code Playgroud)
| 归档时间: |
|
| 查看次数: |
9011 次 |
| 最近记录: |