ste*_*t99 6 amazon-web-services apache-spark pyspark aws-glue
我能够写成实木复合地板格式,并按如下所示进行分区:
jobname = args['JOB_NAME']
#header is a spark DataFrame
header.repartition(1).write.parquet('s3://bucket/aws-glue/{}/header/'.format(jobname), 'append', partitionBy='date')
Run Code Online (Sandbox Code Playgroud)
但是我无法使用Glue的DynamicFrame做到这一点。
header_tmp = DynamicFrame.fromDF(header, glueContext, "header")
glueContext.write_dynamic_frame.from_options(frame = header_tmp, connection_type = "s3", connection_options = {"path": 's3://bucket/output/header/'}, format = "parquet")
Run Code Online (Sandbox Code Playgroud)
我已经尝试将dict partitionBy
作为connection_options
dict 的一部分进行传递,因为AWS文档说镶木地板Glue不支持任何格式选项,但是那没有用。
这有可能吗?至于这样做的原因,我认为工作书签需要工作,因为这目前对我而言不起作用。
从AWS支持(换个说法):
到目前为止,Glue在写入镶木地板时不支持partitionBy参数。不过,这还在进行中。
要使工作书签功能与S3源一起使用,需要使用Glue API写入拼花地板。
因此,到目前为止,无法对镶木地板文件进行分区并启用作业书签功能。
编辑:今天(3/23/18)我在文档中找到了:
glue_context.write_dynamic_frame.from_options(
frame = projectedEvents,
connection_options = {"path": "$outpath", "partitionKeys": ["type"]},
format = "parquet")
Run Code Online (Sandbox Code Playgroud)
该选项可能一直存在,我本人和AWS支持人员都错过了它,或者只是最近才添加的。无论哪种方式,似乎现在都有可能。
小智 5
我使用数据框中的一些列作为partionkeys对象:
glueContext.write_dynamic_frame \
.from_options(
frame = some_dynamic_dataframe,
connection_type = "s3",
connection_options = {"path":"some_path", "partitionKeys": ["month", "day"]},
format = "parquet")
Run Code Online (Sandbox Code Playgroud)
归档时间: |
|
查看次数: |
4229 次 |
最近记录: |