Glue Crawler 无法排除 .csv.metadata 文件

Question

Glue Crawler 无法排除 .csv.metadata 文件

Mon*_*odi 5 amazon-s3 aws-glue aws-glue-data-catalog

我有一个 S3 位置s3://bucket-name/folder-name/，其中包含一个子文件夹，其名称是动态生成的，其中包含短语_Top10InvoiceIds。.csv该子文件夹由和文件组成.csv.metadata。我正在使用胶水爬行器仅爬行 csv 文件并在 Athena 中查看它们。但我无法排除这些.csv.metadata文件。我已经尝试了所有可能的正则表达式模式作为 glob 值。

我的一些尝试是：

*_Top10InvoiceIds/ *.metadata
*_Top10InvoiceIds/ * .* metadata
*_Top10InvoiceIds/ *. *.metadata
*_Top10InvoiceIds/ * .csv.metadata
** .metadata
* .metadata
* .csv.metadata
* /*.metadata

如果有人可以帮助我找出该模式或建议另一种方法来完成相同的任务，那就太好了。

Answer 1

Yur*_*ruk 1

尝试使用**/*.csv.metadata或**/*.metadata排除模式

归档时间：	6 年，9 月前
查看次数：	2801 次
最近记录：	5 年，11 月前