gsc*_*cho 5 json amazon-web-services pyspark aws-glue
我正在进行ETL作业,该作业将JSON文件提取到RDS登台表中。我配置的搜寻器对JSON文件进行分类,只要它们的大小小于1MB。如果我缩小文件(而不是漂亮的打印件),并且结果小于1MB,它将对文件进行分类而不会出现问题。
我在想办法时遇到了麻烦。我尝试将JSON转换为BSON或GZIPing JSON文件,但仍被归类为UNKNOWN。
还有其他人遇到这个问题吗?有一个更好的方法吗?
小智 8
我有两个 json 文件,分别为 42mb 和 16mb,在 S3 上作为路径分区:
s3://bucket/stg/year/month/_0.json
s3://bucket/stg/year/month/_1.json
我和你有同样的问题,爬虫分类为 UNKNOWN。
我能够解决它:
| 归档时间: |
|
| 查看次数: |
2228 次 |
| 最近记录: |