小编Joe*_*van的帖子

AWS Glue 作业:尝试将镶木地板文件写入 S3 时出现 SchemaColumnConvertNotSupportedException

我在 AWS Glue 目录中有一个表,其中包含所有字符串的数据类型,并且这些文件作为 parquet 文件存储在 S3 中。我想创建一个 Glue 作业,它只需从该目录中读取数据,按日期对文件进行分区,然后将这些文件写回 S3。但是,我不断收到 SchemaColumnConvertNotSupportedException,指出镶木地板列无法转换。

我已尝试使用 ApplyMapping 函数来确保所有数据都在 DynamicFrame 中表示为字符串

import sys
from awsglue.transforms import *
from awsglue.utils import getResolvedOptions
from pyspark.context import SparkContext
from awsglue.context import GlueContext
from awsglue.job import Job
from awsglue.dynamicframe import DynamicFrame
from pyspark.sql.functions import input_file_name

## @params: [JOB_NAME]
args = getResolvedOptions(sys.argv, ['JOB_NAME'])

sc = SparkContext()
glueContext = GlueContext(sc)

spark = glueContext.spark_session
job = Job(glueContext)
job.init(args['JOB_NAME'], args)

dyf = glueContext.create_dynamic_frame.from_catalog(database = "processed", table_name = "compass_2_daily_tkt_parquet")

mapping_dyf = ApplyMapping.apply(frame = …
Run Code Online (Sandbox Code Playgroud)

python amazon-s3 apache-spark pyspark aws-glue

9
推荐指数
1
解决办法
1981
查看次数

标签 统计

amazon-s3 ×1

apache-spark ×1

aws-glue ×1

pyspark ×1

python ×1