小编Joe*_*van的帖子

AWS Glue 作业：尝试将镶木地板文件写入 S3 时出现 SchemaColumnConvertNotSupportedException

我在 AWS Glue 目录中有一个表，其中包含所有字符串的数据类型，并且这些文件作为 parquet 文件存储在 S3 中。我想创建一个 Glue 作业，它只需从该目录中读取数据，按日期对文件进行分区，然后将这些文件写回 S3。但是，我不断收到 SchemaColumnConvertNotSupportedException，指出镶木地板列无法转换。

我已尝试使用 ApplyMapping 函数来确保所有数据都在 DynamicFrame 中表示为字符串

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
from pyspark.sql.functions import input_file_name

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)

spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

dyf = glueContext.create_dynamic_frame.from_catalog(database = "processed", table_name = "compass_2_daily_tkt_parquet")

mapping_dyf = ApplyMapping.apply(frame = …

Run Code Online (Sandbox Code Playgroud)

python amazon-s3 apache-spark pyspark aws-glue

Joe*_*van

lucky-day

9
推荐指数

1
解决办法

1981
查看次数