我在 AWS Glue 目录中有一个表,其中包含所有字符串的数据类型,并且这些文件作为 parquet 文件存储在 S3 中。我想创建一个 Glue 作业,它只需从该目录中读取数据,按日期对文件进行分区,然后将这些文件写回 S3。但是,我不断收到 SchemaColumnConvertNotSupportedException,指出镶木地板列无法转换。
我已尝试使用 ApplyMapping 函数来确保所有数据都在 DynamicFrame 中表示为字符串
import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
from pyspark.sql.functions import input_file_name
## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])
sc = SparkContext()
glueContext = GlueContext(sc)
spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)
dyf = glueContext.create_dynamic_frame.from_catalog(database = "processed", table_name = "compass_2_daily_tkt_parquet")
mapping_dyf = ApplyMapping.apply(frame = …Run Code Online (Sandbox Code Playgroud)