AWS Glue Crawler将json文件分类为UNKNOWN

Question

我正在进行ETL作业，该作业将JSON文件提取到RDS登台表中。我配置的搜寻器对JSON文件进行分类，只要它们的大小小于1MB。如果我缩小文件（而不是漂亮的打印件），并且结果小于1MB，它将对文件进行分类而不会出现问题。

我在想办法时遇到了麻烦。我尝试将JSON转换为BSON或GZIPing JSON文件，但仍被归类为UNKNOWN。

还有其他人遇到这个问题吗？有一个更好的方法吗？

Answer 1

我有两个 json 文件，分别为 42mb 和 16mb，在 S3 上作为路径分区：

我和你有同样的问题，爬虫分类为 UNKNOWN。

我能够解决它：